Index TTS 2 能控制哪些情绪?

八种,单独设定:开心、愤怒、悲伤、恐惧、厌恶、忧郁、惊讶、平静。混合它们精确塑造一句话怎么读。

它克隆声音需要什么?

一段该声音的参考音频样本。它用这个克隆音色、按你选的情绪配比朗读你的文本。

它和 Chatterbox TTS 有什么不同?

两者都克隆声音。Index TTS 2 提供细粒度的八情绪控制;Chatterbox 强调广泛多语种覆盖。情绪细腻最重要时挑 Index TTS 2。

按文本每 1000 字符计价。

ZOOOP 上的 Index TTS 2 — 带情绪控制的音色克隆

Q: 怎么计价?

按文本每 1000 字符计价。

Index TTS 2 擅长什么——又不擅长什么

Index TTS 2 是 Bilibili 的音色克隆模型,有一个鲜明强项:对八种情绪的细粒度控制。提供一段参考样本克隆一个声音,然后单独设定开心、愤怒、悲伤、恐惧、厌恶、忧郁、惊讶、平静的强度,精确塑造每句话怎么读。因为情绪会混合,你能叠加细腻的组合,而不是只选一种预设情感,这适合有表演感的旁白和戏剧化对白。

克隆这一侧从你的样本复现一个特定声音,所以同一角色或品牌音色能以可控的情绪范围承载一段脚本。计价按每 1000 字符。

它在 ZOOOP 语音模型里的位置:Chatterbox TTS 是为广泛多语种覆盖而造的音色克隆;LUX TTS 是最便宜的克隆;要预设音色就用 Multilingual V3。Index TTS 2 的甜点区是情绪细腻的音色克隆。

一个合理的心理模型:克隆音色需要精确情绪控制时,默认选 Index TTS 2,要多语言就换 Chatterbox,要最低成本就 LUX TTS。

Index TTS 2

Index TTS 2

核心能力

从样本克隆音色

八情绪控制

细粒度表演

Bilibili Index 血统

使用场景

情绪角色音色

戏剧化对白

克隆品牌音色

驱动说话数字人

如何选对模型

如何使用

深入了解

Index TTS 2 擅长什么——又不擅长什么

常见问题

更多模型

Index TTS 2