我做了一个测试。
拿了一张普通的人物照片——
不是模特,不是明星,就是我手机相册里随便找的一张街拍。
把这张照片丢给即梦AI。
然后开始计时。
10分23秒之后,我手里有了一集2分钟的短剧。
有人物,有对白,有场景转换,有情绪起伏。
虽然不是Netflix级别的制作,但放在抖音/视频号上,完全能看。
今天把这个完整流程拆给你,每一步怎么做,用什么工具,踩了哪些坑,全部写清楚。
先说清楚:这个流程用到了什么工具
不只是即梦一个工具,是一套工具组合:
工具 | 用途 | 费用 |
即梦AI | 图生视频,生成场景画面 | 有免费额度 |
Claude/豆包 | 写短剧脚本和对白 | 免费 |
剪映 | 剪辑合成,加字幕配音 | 免费 |
Suno | 生成背景音乐 | 有免费额度 |
四个工具,全部免费或有免费额度,今天就能开始。
为什么选即梦做这件事?
做短剧视频,核心难点是:人物一致性。
普通的AI视频工具,你让同一个人在不同场景里出现,前一个镜头和后一个镜头,脸往往不一样——
这对短剧来说是致命的,因为观众会直接出戏。
即梦的"参考图"功能解决了这个问题:
你上传一张人物照片作为参考,即梦会尽量保持这个人物在后续所有生成视频里的外貌一致性。
不是完美,但已经是目前国内工具里表现最稳定的方案之一。
完整实测流程:10分钟出一集短剧
第1步:确定短剧主题和结构(2分钟)
不要想太复杂。
第一集短剧,最适合这个结构:
开场(15秒):建立人物和场景,制造悬念
发展(45秒):推进情节,矛盾升级
转折(30秒):出现意外,情绪爆发
结尾(30秒):留下悬念,引导下集
总时长:约2分钟
我测试用的主题:
"都市白领深夜收到一条陌生短信,开始了一段改变命运的对话。"
简单,有悬念,不需要复杂的场景,适合AI生成。
第2步:用AI写脚本(3分钟)
打开豆包或Claude,输入:
请帮我写一个2分钟的短剧第一集脚本。
主题:都市白领深夜收到一条陌生短信,开始了一段改变命运的对话
主角:一位28岁的都市女性,在一家互联网公司做运营,独居,生活压力大
结构要求:
- 开场15秒:建立场景和人物,制造悬念
- 发展45秒:展开情节
- 转折30秒:出现意外情况
- 结尾30秒:留下悬念,结尾一句话让人想看第二集
脚本格式:
【场景X】场景描述(用于AI生成视频画面)
对白:"……"
旁白(如有):"……"
镜头说明:镜头怎么运动
注意:
- 对白要口语化,像真人说话
- 每个场景描述要详细,因为要用来生成AI视频
- 结尾必须有强悬念,让人觉得"必须看第二集"
AI会给你一份完整脚本,大约需要1-2分钟生成。
拿到脚本,快速过一遍,把不自然的对白改成你觉得更像真人说话的版本。
第3步:把照片"激活"——用即梦图生视频(5分钟核心操作)
这是整个流程最关键的步骤。
操作入口:打开即梦AI(jimeng.jianying.com)→ 选择"视频生成" → 选择"图片生视频"
第一个镜头的生成(建立人物):
① 上传你的参考人物照片
② 在提示词框里输入这个镜头的场景描述(从AI脚本里复制):
一位28岁的都市女性,深夜独自坐在出租屋里,手机屏幕的蓝光照着她疲惫的脸,房间里只有台灯亮着,她低头看着手机,表情从平静到困惑,镜头从侧面缓慢推进,深夜氛围,冷蓝手机光和暖黄台灯光对比,
情绪:疲惫中带着一丝好奇,
竖图9:16,电影质感
③ 在"参考图强度"里把数值调到70-80%(保持人物特征同时允许场景变化)
④ 生成2-4个版本,选最接近你预期的那个
后续镜头的关键:每次都上传同一张参考照片
这是保持人物一致性的核心操作——
每生成一个新镜头,都把同一张人物照片重新上传,设置相同的参考强度。
不同场景里,人物脸型会有轻微变化,但整体相似度能保持在70%以上,足以让观众认出是同一个人。
按脚本,依次生成每个场景的视频片段。
一个场景生成约30-60秒,5-6个场景总共约4-5分钟。
第4步:在剪映里合成短剧(5分钟)
所有视频片段生成完成,进入剪映合成环节。
① 按脚本顺序排列片段
把即梦生成的视频按场景顺序导入剪映,拖到时间轴上。
相邻场景之间用"叠化"转场(0.3秒),不要用炫酷特效,否则会破坏剧情感。
② 加对白和旁白
方式A(AI配音):把脚本里的对白粘贴进剪映"AI配音"功能,选两个不同的声音分别代表不同角色,生成配音轨道。
方式B(自己录制):更有感情,但会露出声音(不露脸但能听出是你)。
③ 加字幕
点击"字幕" → "识别字幕",自动识别配音内容生成字幕。
短剧字幕建议:字体选"黑体"或"楷体",大小适中,位置在画面下方1/4处。
④ 加背景音乐
这里用Suno生成专属BGM——
打开Suno,输入:
Suspenseful urban drama background music,
Chinese contemporary style,
subtle tension with emotional undertones,
60-70 BPM, minimal and atmospheric,
suitable for a modern thriller drama,
no vocals, instrumental only
生成后下载,在剪映里作为背景音层,音量调到对白音量的20-30%。
⑤ 加片头字幕
在视频开头加3秒的黑底白字片头:
剧名 + 第X集 + 集数标注
这个细节会让视频看起来更像"正式短剧",而不是普通视频内容。
实测结果:真实评价
做得好的:
✅ 人物一致性在7个镜头里表现稳定,脸型基本一致,观众不会出戏
✅ 场景切换流畅,配合剪映的叠化转场,整体有"剧感"
✅ AI配音 + 字幕的组合效果不错,对白清晰,情绪基本到位
✅ 整个流程真的可以在15分钟内完成(我第一次测用了23分钟,第二次熟了用了11分钟)
做得不够好的:
❌ 人物嘴型和AI配音无法同步——这是目前所有图生视频工具的共同问题,人物嘴巴在动,但动作和对白不匹配
❌ 复杂动作场景(比如两个人互动/打斗)即梦做不了——只能做单人或无人场景,两人互动需要特殊处理
❌ 情绪细腻度有限——人物表情比较单一,无法做到演员那种层次丰富的情感表达
嘴型不同步怎么解决?
这是最多人会遇到的问题,给3个解决思路:
思路①:用旁白代替对白
把对白改成第三人称旁白的方式讲述——
不是"我不知道该怎么办",而是"她盯着手机,不知道该怎么办"。
旁白不需要嘴型同步,画面可以是人物的任何表情或动作。
这其实是很多AI短剧创作者已经在用的方式,观众已经接受了这种叙事风格。
思路②:用切换镜头避开嘴部
在人物说话的时候,把镜头切换到:
·对方听话时的表情(听的人不需要说话)
·手部特写(拿着手机/做某个动作)
·场景空镜(窗外/房间细节)
用剪辑技巧绕开嘴型同步的问题。
思路③:等技术迭代
口型同步是目前AI视频领域正在攻克的核心难题,预计2026年内会有商用级别的解决方案出现。
现在的内容做出来,等技术成熟了可以用新版本重新生成,届时质量会大幅提升。
短剧内容的选题公式
做AI短剧,什么主题最容易出爆款?
测试效果最好的3类主题:
① 都市悬疑类(我这次测试的方向)
·陌生人突然联系,牵出秘密
·普通人发现周围有不寻常的事
·主角意外卷入一件大事
为什么好做:场景简单(室内居多),不需要复杂的动作戏,主要靠对白和情绪推进。
② 职场复仇类(目前最火的短剧赛道)
·被欺负的员工逆袭
·平凡打工人发现老板的秘密
·职场小白意外掌握谈判筹码
为什么好做:办公室场景容易生成,人物关系清晰,情绪对比强烈。
③ 穿越重生类(有固定受众)
·现代人穿越古代
·重活一次,改变命运
·意外获得前世记忆
为什么好做:古装场景在即梦里生成质量很高,风格统一,视觉有辨识度。
发布策略:短剧内容怎么涨粉最快
策略①:每集结尾必须有强悬念
"下集预告"不只是下集的内容预览,而是一个让观众"不看会难受"的钩子。
最有效的悬念类型:
·突然的反转("她以为他是陌生人,但其实……")
·紧迫的问题("她只有24小时,否则……")
·情感的爆发点("那一刻,她终于明白了……")
策略②:更新节奏要稳定
每天一集,或者每两天一集,选一个你能坚持的节奏,然后一直坚持。
比起一次性发10集然后消失,每天稳定更新的账号涨粉更快。
策略③:在简介里明确写"每日更新"
视频号/抖音的算法对"系列内容"有加权,明确标注集数和更新节奏,让算法认识到这是连续内容。
一个人做短剧的完整工具链
把今天讲的内容整合成一张图:
故事灵感
↓
Claude/豆包(写脚本)
↓
即梦AI(图生视频,生成每个场景画面)
↓
Suno(生成专属BGM)
↓
剪映(合成剪辑 + AI配音 + 字幕)
↓
发布(抖音/视频号/小红书)
↓
评论区反馈→ 调整下一集
一个人,零演员,零摄影,零拍摄——做出可以发布的短剧。
这件事在2026年,真实可行。
最后
10分钟出一集短剧——
这件事在两年前是天方夜谭,在一年前是技术极客的专利,在今天是任何人都可以尝试的事。
工具已经准备好了。
故事,在你脑子里。
把它们连接起来,就是你的短剧。
今天就做一个测试:
从手机相册里随便找一张照片,想一个3句话的故事大纲,打开即梦,生成第一个镜头。
那个镜头出来的那一刻,你会明白——你也可以是短剧导演。
你想做什么类型的短剧?评论区告诉我,我来帮你出第一集的脚本大纲。
收藏这篇,完整工具链随时查阅。
关注我,AI创作实战系列持续更新,每篇都有教程,拿走就能用。