卧槽!影视级TTS! IndexTTS2 马上就要发布了,这是个文本生成语音的大模型,效果能达到影视级,大家直接看视频,任何的文字描述都是苍白无力的。 这个模型从介绍看支持以下特性: 完全本地化,开放权重。 零样本语音克隆。你只需提供一个音频文件(任何语言),它将极其准确地克隆语音风格和节奏。它听起来比 MaskGCT 和 F5-TTS 这两种其他最先进的本地模型更准确。 可选:通过提供一个包含要模仿的情绪状态的第二个音频文件进行零样本情绪克隆。这会影响低语、尖叫、恐惧、欲望、愤怒等。这是世界首创。 可选:情绪文本控制,无需第二个音频文件。您只需写出应使用的情绪。 可选:完全控制输出时长,使其非常适合电影配音。这是世界首创。或者您可以在标准“自由长度”模式下运行,它会自动让音频达到必要的长度。 支持输出的文本转语音语言:英语和中文。与大多数模型类似。 项目地址: