大家好,我是小阳哥。
最近,AI 短剧、漫剧赛道简直杀疯了。
不用真人出镜,不用专业剧组,甚至不需要你会画画。有人靠着“AI 搬运+二次创作”,一周涨粉 10 万;也有人仅凭一台电脑,在家里捣鼓 4 小时就出了一集电影质感的漫剧,月入过万的案例比比皆是。
“这波红利,普通人到底怎么吃?”
我深度拆解了全网最火的几篇保姆级教程,把制作过程详细讲解给你听。
另外,文末附免费短剧一键生成软件,完整集成所有短剧流程。
一、 AI 短剧全能工具
在动手之前,先把这套“全家桶”收好。
| 制作环节 | 核心生产工具 | 协同和交付工具 |
|---|
| ChatGPT/Gemini/豆包/DeepSeek | |
| Nano Banana/即梦/Midjourney | |
| Seedance2.0/可灵/Sora/Runway | |
| 剪映AI配音/ElevenLabs/Suno/Udio | |
| | |
二、 核心流程
Step 1: 打造“黄金剧本” —— 寻找能留人的“钩子”
很多人误以为 AI 短剧核心是精美画面,实际上,剧情才是短剧的唯一生命线。
万能指令模板:
"请作为一名拥有 5 年经验的短剧金牌编剧,为我创作一个 [题材,如:古风神话] 的剧本。
- 核心冲突:[如:发现通过古籍能与 1000 年前的人实时对话]。
- 节奏要求:单集 1 分钟,3 秒内必须出现视觉奇观/强烈冲突,结尾预留一个致命悬念(钩子)。
细节优化:AI 出来的初稿往往比较平。建议手动在 “起因-经过-结果” 中加入 “环境压迫感”。比如:不要直接说“他很惊讶”,要写“他的手微微颤抖,汗水浸透了古籍的边缘”。
AI大模型选择:效果比较理想的有ChatGPT、Gemini、Deepseek和豆包。如果无法使用ChatGPT、Gemini,就直接用Deepseek或者豆包都可以。
剧本模板参考:
INT.粉色闺房 - 下午角色:宋离离、易西芝【环境音:午后寂静,窗帘轻拂】【BGM:低沉压抑】△ 主观视角,画面高速坠落感,空气呼啸声掠过耳畔,城市楼宇在脚下迅速远离。△ 突然切黑。【音效:心跳骤停】△ 眼睛猛然睁开。△ 近景主观,视野剧烈晃动,粉色天花板、水晶吊灯在视线里晃动放大又拉远,蕾丝窗帘洒下细碎光影。△ 床前站着一名黑白女仆装女孩,脸蛋圆圆,手紧张地绞着围裙。易西芝(小心翼翼):小姐,您让我取的泻药,我已经照您说的加进二小姐晚上喝的牛奶里了。△ 近景,宋离离猛地坐起。△ 她呼吸急促,胸口剧烈起伏,额头细汗。△ 她抬手摸向自己的脸,眼神充满震惊与不真实。宋离离(低声喃喃):……我没死?
Step 2: 建立资产库——解决一致性问题
一致性问题,应该是新人入坑后的头号问题:上一秒是美女,下一秒变路人,观众瞬间出戏。
想保持视频人物、场景和道具的一致性,需要有资产意识。 需要在真正制作视频之前,提前生成好人物、场景、道具图片。以在后续视频生成中保持一致
这里,以最重要的人物为例,需要生成人物的人脸特写+三视图,让 AI 有更多参考。
人物一致性硬核方案
(1)先生成一张主角的“证件照”(包含外貌、穿着、身材特征)。如果有现成的图参考也可以跳过这个步骤
(2)重点 生成人物 人脸特写 + 定妆照三视图。如下这种图:

附提示词:
以这个人物为主体保持人物身份特征、服饰严格一致保持人物身材比例,人物严格静止图片比例为 16:9最左边占满三分之一的位置是超大的面部特写,右边三分之二放正视图、侧视图、后视图、纯白背景
注:角色图可以使用Gemini 的 NanoBanana2 或者即梦的 Seedream 5.0效果最佳
Step 3: 分镜及分镜图制作 —— 别把视频做成 PPT
分镜是控制短剧节奏/内容的重要步骤,需要根据剧情拆分分镜表格、提示词、和分镜图片
分镜拆分可以让 AI 协助拆分,然后根据输出分镜内容,制作分镜表格
AI 拆分分镜提示词参考:
你是一位资深的影视剧导演兼专业的AI视频生成提示词工程师。你的任务是将用户提供的剧本文本,转化为可以直接用于AI视频生成工具的结构化视频提示词。核心规则:1. 每段素材时长控制在5-15秒,建议以15秒为基准2. 不同场景或大情绪转折点,切割为不同段落,用"---"分隔3. 台词一字不差保留,融入描述中:某某说:"台词内容"4. 心理独白标注:某某内心独白:"..."5. 不在画面内但有声音:某某画外音:"..."6. 对话时要有正反打切换,中途插入听者的反应镜头7. 全局设定每段开头写:只生成音效,不要生成音乐。不要生成任何字幕。输出格式:【素材段落 1】只生成音效,不要生成音乐。不要生成任何字幕。0-X秒,[景别],[运镜],[画面描述+台词]X-X秒,[景别],[运镜],[画面描述]---现在请处理以下剧本:[在此粘贴你的剧本]
分镜表格格式参考:

注:分镜拆分可以使用 ChatGPT/豆包等,分镜图可以使用Gemini 的 NanoBanana 或者即梦的 Seedream 5.0效果最佳。
Step 4: 视频生成 —— 让画面“活”过来
有了对应的分镜内容、分镜图后,我们就可以根据每个镜头去生成对应的视频了;
图生视频有很多大模型都可以用,大家可以根据自己需求去选对应的大模型。
要2 分钟长片 → 选 Kling Omni V1
要60 秒多镜头 / 量产 / 性价比 → 选 Seedance2.0
以即梦AI为例,选择生成模式,然后选择全能参考或首尾帧模式,选择seedance2.0或者seedance2.0fast模型,选择好视频比例,提示词就参考刚才生成的分镜头脚本进行修改,然后就进入视频生成抽卡了。
用的最多的应该是首尾帧,步骤:
- 上传“动作开始”的一张图,和“动作结束”的一张图。
- 比如:第一张图是主角举起剑,第二张图是剑锋划破长空。
- AI 会自动补强中间的物理运动。这比纯文生视频的废片率降低了 80% 以上!
Step 5: 后期合成——完整成片
(1)视频剪辑与合成:推荐使用剪映,将分镜视频进行合成处理。剪辑可以自己去b站找课观看学习。
(2)音效及配音视频做得好不好,听感占 50%。
- 配音要带“人味”:在 ElevenLabs 中,选择带有“Suspense”语气的音色。
- 1.1x / 1.15x 语速:短视频节奏快,稍微加速能提升完播率。
- **环境音 (Foley)**:不要只放 BGM。脚步声、推门声、甚至是深夜的蝉鸣,这些微小的环境音是让 AI 视频摆脱“塑料感”的关键。
- 音量平衡:BGM 设为 -18dB 到 -20dB,人声保持在 -6dB 到 -3dB 之间。
三、 避坑指南
- 沉迷 4K 导出:很多 AI 工具导出的 4K 有伪影。建议渲染 1080P,然后用 Topaz Video AI 5.0 进行专业 AI 超分,画质会产生质的飞跃。
- 不做“一致性资产库”:建议先花一天时间,把主角的 10 个表情、5 个常用动作、3 个常用场景全部生成出来,放在飞书或本地文件夹里,后续剪辑就像拼积木,速度提升 5 倍。
- 动作过于复杂:不要试图让 AI 一次生成“一个后空翻踢倒反派”。拆解成“深蹲起跳”、“半空翻滚”、“踢腿重击”三个 2 秒的镜头,剪辑出来的打击感更强。
- 忽视版权意识:虽然 AI 生成内容版权尚有争议,但 BGM 请务必使用 Pixabay 或 Suno/Udio 原创,避免因为版权被平台下架或限流。
- 标题党而不“封面党”:封面是点击率的命门。把剧本扔给即梦,让它根据剧情核心冲突生成 3 张吸睛海报作为封面备选。
别纠结于完美的参数,先跟着流程走出第一步。在这个赛道,只要你的故事够精彩,你就会有观众。
另外,如果你不想手动到各个平台去处理剧本/图片/视频。 我目前在用一个开源的免费 AI 短剧软件,制作更加简单,可以尝试。
参考文章:AI短剧正在爆发:一款开源工具带你从0到1做短剧
附:
【开源网址】https://github.com/HBAI-Ltd/Toonflow-app
【软件包地址】可以关注【小阳哥AI工具箱】,后台回复【AI短剧】获取