最近有小伙伴提到在给短剧、游戏进行角色配音的时候,容易飘、声线、音色、语气都会变化,导致生成之后总有割裂感。
这里分享一个在用的解决方案,这个方案「本地部署」、「零基础就可快速使用」,十分方便,音色稳定。
🌈 所需要的基础准备
1️⃣ Codex
2️⃣ 一台性能不算太差的电脑,windows和mac 都可以,内存32GB左右,显卡4060以上,mac 的话最好m4及以上,内存32gb
⛱️ 具体方式
1️⃣ 打开 Codex ,建议开到 5.5 xhigh 或者 medium,不要用high,因为性能差、还浪费token;
2️⃣ 让 Codex 安装 Qwen TTS base 和 voice design 两个模型,1.7B的。前者是用于提供声音样本,生成音频,后者是通过自然语言生成需要的音色;
3️⃣ Codex 安装完成2个模型后,在 Codex 对话框中,通过自然语言让其调用 voice design 生成你需要的音色,比如“生成一个20岁左右邻家男生的声音,性格活泼、热情洋溢,大大咧咧,普通话标准”;
4️⃣ 然后Codex 就会通过 Voice design 给你生成对应的音色,一般会给你多个选择,你也可以直接要求多个选择。并给你生成对应试听页面(封面2),你试听之后选择你喜欢的,并把对应编号告知 Codex 即可,如果都不合适,则给 codex提意见,让其进一步生成更多选择;
5️⃣ 确定声音样本后,把你要生成的剧本、文案、游戏对话,扔给 Codex,让 Codex 调用 qwen tts base 按照 xxx 的声音样本,进行生成。生成过程中可自行拆解对话,让每个对话不要超过20秒,或者逐句配音再拼接(这些codex都会自动化帮你落地,只需要提要求),并且可以让codex自动根据上下文语境添加语气标签,声音会更有代入感。
6️⃣ 这里tts模型不建议生成超过 30秒的声音片段,容易漂移,失真会很严重。
目前在用的就是这套本地方案了,这几天发现 豆包的audio 1.0模型,是直接把桌子掀了,开启了 tts的另一个时代,缺点就是 API 计费,没开源。
#howto入门codex #howto用好ai #ai #AI工具 #大模型 #开发者选项 #codex #qwen #tts #游戏开发