↑阅读之前记得关注+星标⭐️,😄,每天才能第一时间接收到更新
大家好,我是杰克王,AI 算法 6 年老兵。
你有没有想过做 AI 短剧?
现在抖音、快手上那些「小说变视频」的号,一集播放量动辄百万,看起来很诱人。但真正做过的人都知道,这条流水线有多费神:
先要把几万字小说拆成分镜——一集大概 80-120 个镜头,全靠人工;然后用 AI 画人物,结果角色在第1集一个样,到第5集换了张脸,观众直接弃剧;再去 Runway、豆包、即梦各平台轮流点击生成视频;最后剪辑拼接,搞到凌晨三点。
这整个流程,不是人力成本高,是重复劳动太耗心气。你根本没时间做创意,全在对付「流水线」本身。
我最近看到一个开源项目——Toonflow,GitHub 地址:HBAI-Ltd/Toonflow-app[1],截至 2026-05-26 已经收获 8,841 Stars、1,525 Forks。
它做的这件事,用一句话描述:把「写小说」到「出短剧」这条流水线,交给 AI Agent 自动跑。

开发团队是 HBAI-Ltd,今年 1 月开源,4 个月内发布了 19 个版本,目前最新是 v1.1.7(2026-05-01),仍在活跃迭代。从 Topics 来看,定位非常聚焦:text-to-video、shorts、ai-video-generation,就是专门为短剧内容生产而生的工具。
README 里有一段真实 Demo 数据,我觉得放在这里比任何介绍都更直接:
| 项目 |
详情 |
| 制作周期 |
约 2 小时 |
| 视频模型 |
Seedance 2.0 |
| 图片模型 |
GPT Image 2 |
| 语言模型 |
Claude Opus 4.6 |
| 成片总时长 |
约 2 分钟(原始素材 3 分钟,剪废片约 1 分钟) |
成本明细:
| 模型类型 |
费用 |
| 语言模型 |
约 ¥10 |
| 视频模型(全量生成) |
约 ¥120 |
| 图片模型 |
不足 ¥1 |
| 合计 |
约 ¥130 |
130 块,2 小时,一集动漫短剧。
这个数字刺激到我了——以前用传统方式,光是角色设计费就不止这个数。
Toonflow 做了什么让这件事成为可能?
核心在于它把整个流程拆成了 5 个可落地的能力模块:
① 无限画布生产工作台
不是那种「一步一步傻瓜向导」,而是类 Figma 的无限画布。剧本、角色、分镜、素材、视频节点全在同一个画布里,可以并行生产,随时回溯修改,不被固定步骤卡住。
这个设计的好处是:你可以同时推进第 3 集和第 7 集,不用等前面的做完才能开始后面的。
② 三层 Agent 协作体系
决策层管任务拆解,执行层负责实际生成,监督层做质量审阅和修订反馈。三层联动,不是「生成一次就算」,而是有内置的自审机制。
这解决了一个核心问题:AI 一次生成的镜头质量参差不齐,监督层可以标注哪些需要重来,而不是全部推倒重做。
③ 持久化 Agent 记忆
这个设计很有意思。基于本地 ONNX 向量检索,支持短期消息、长期摘要和语义召回。
实际用途:你今天做了第 1 集,设定了主角「头发乌黑、身穿白色长裙」,下次继续做第 6 集,Agent 还能记住这些角色设定,不会突然「失忆」给你画个金发大汉出来。
④ 可编程供应商系统
支持在设置中心直接写 TypeScript 逻辑配置新模型,改完即时生效,不需要重启、不需要改源码。
对独立开发者来说这很实用——豆包视频 API 便宜的时候用豆包,Sora 质量好的时候接 Sora,随时切换,没有平台绑定。
⑤ 章节事件图谱驱动改编
自动提取原著章节的关键事件,结构化存储成「事件图谱」,剧本改编时按图谱精准调用上下文。
这解决了长文本改编的老大难问题:LLM 的上下文窗口有限,塞进去一本 10 万字小说,中间的剧情细节容易「蒸发」。事件图谱相当于给 AI 建了一个结构化的故事索引。
用一张图直观感受一下「传统方式」和 Toonflow 的区别:

怎么上手?
三步搞定:
# 1. 下载安装包(Windows/macOS/Linux 都有)
# https://github.com/HBAI-Ltd/Toonflow-app/releases
# 2. 首次登录
账号:admin
密码:admin123
⚠️ 如果部署在公网,立刻改掉这个默认密码,否则 API Key 会被盗刷
# 3. Docker 部署(可选)
docker build -t toonflow .
docker run -d -p 10588:10588 -v <本地数据路径>:/app/data toonflow
进去之后,在设置中心配置好文本/图像/视频三类模型的 API Key,然后导入小说,执行章节事件提取,就可以进入 ScriptAgent 开始创作了。
支持的模型包括:OpenAI、Anthropic、Google、DeepSeek、智谱、MiniMax、通义千问、xAI——主流平台全覆盖。
用户说了什么?
项目 Issues 不多,但有一条 #91 很有代表性,用户原话是:
"怎么从智能操作方式变成'智障'?"(原标题:v1.0.10 新建项目新增了视觉手册和导演手册都需要手动填写,不填又不能创建)
这反映了一个真实问题:产品在快速迭代的过程中,有些版本新增了必填字段,但没有提供默认值或智能预填,导致用户卡住。这条 Issue 已在后续版本修复,但说明工具在「易用性」上仍然有打磨空间。
另一位用户在 A 姐分享的测评里直接指出:「它只是初稿工具,不适合想一键生成好莱坞大片的人。」
这个定位描述很准——Toonflow 给你的是一条高效的初稿流水线,最终的质感还需要创作者自己把控。
我的判断(截至 2026-05-26):
第一,短剧赛道「工具化」的时间窗口现在还开着。 目前市面上这类工具普遍定价 198-500 元/月,Toonflow 开源免费只需自付 API,这个成本优势在接下来 12-18 个月内有实质竞争力。等大厂把类似功能打包进创作套件,窗口就关了。
第二,三层 Agent + 持久化记忆是真正的工程亮点。 大多数 AI 视频工具在「多集连贯性」上基本没有解决方案,全靠用户自己维护提示词。Toonflow 在架构层面做了这个设计,技术判断是正确的。
第三,角色一致性仍然是整条流水线最脆弱的环节。 目前 130 元的成本里大头是视频模型(¥120),如果你对角色稳定性要求高,需要更多的迭代生成,成本会线性增加。这个问题不是 Toonflow 独有的,而是整个「图生视频」技术链的共同局限。
觉得有收获,点个在看支持一下 👇
感谢阅读。我是杰克王,欢迎加微交流 🚀
引用链接
[1]HBAI-Ltd/Toonflow-app: https://github.com/HBAI-Ltd/Toonflow-app