在 GitHub 上看到 MultiTalk 这个开源项目,在制作多人对话场景的数字人视频效果颇不错。 只需提供音频文件、参考图片和提示词,就能生成嘴型同步的多人对话视频,还支持歌唱和卡通角色生成。 GitHub: 主要特性: - 音频驱动的单人和多人对话视频生成,嘴型同步精准 - 通过提示词直接控制虚拟人物的交互和行为表现 - 支持卡通角色生成和歌唱场景,适用范围更广泛 - 提供 480P 和 720P 多种分辨率输出,支持任意宽高比 - 长视频生成能力,最长可达 15 秒连续对话场景 - 集成 TTS 功能和多种加速优化,大幅提升生成效率 此外,还支持多 GPU 推理和低显存模式,单张 RTX 4090 即可运行 480P 视频生成。