
情绪角色音色
克隆一个角色音色,为每句话调出精确的情绪配比。
Bilibili Index TTS 2——音色克隆,对八种情绪做细粒度控制。
一次充值积分,通用所有模型,想用再用。 · 按需充值,不存在月度清零。
Powered by Bilibili Index's API on ZOOOP
提供一段参考音频样本,Index TTS 2 用这个克隆音色朗读你的文本。
单独调开心、愤怒、悲伤、恐惧、厌恶、忧郁、惊讶、平静——混合情绪,精确塑造一句话怎么读。
独立设定每种情绪的强度,做有层次的细腻表达。
基于 Bilibili Index 语音模型。

克隆一个角色音色,为每句话调出精确的情绪配比。

设愤怒、恐惧或忧郁强度以匹配戏剧化场景。

复现一致的声音,带可控的情绪范围。

先生成克隆、情绪可控的语音,再用它驱动数字人模型。
按需求挑语音模型。积分在 ZOOOP 上所有模型通用。
从本页或音频工具里选中 Index TTS 2。
上传一段参考音色样本并粘贴文本。
设定每种情绪的强度以塑造表演。
生成,然后下载或发送到画布。
Index TTS 2 是 Bilibili 的音色克隆模型,有一个鲜明强项:对八种情绪的细粒度控制。提供一段参考样本克隆一个声音,然后单独设定开心、愤怒、悲伤、恐惧、厌恶、忧郁、惊讶、平静的强度,精确塑造每句话怎么读。因为情绪会混合,你能叠加细腻的组合,而不是只选一种预设情感,这适合有表演感的旁白和戏剧化对白。
克隆这一侧从你的样本复现一个特定声音,所以同一角色或品牌音色能以可控的情绪范围承载一段脚本。计价按每 1000 字符。
它在 ZOOOP 语音模型里的位置:Chatterbox TTS 是为广泛多语种覆盖而造的音色克隆;LUX TTS 是最便宜的克隆;要预设音色就用 Multilingual V3。Index TTS 2 的甜点区是情绪细腻的音色克隆。
一个合理的心理模型:克隆音色需要精确情绪控制时,默认选 Index TTS 2,要多语言就换 Chatterbox,要最低成本就 LUX TTS。
八种,单独设定:开心、愤怒、悲伤、恐惧、厌恶、忧郁、惊讶、平静。混合它们精确塑造一句话怎么读。
一段该声音的参考音频样本。它用这个克隆音色、按你选的情绪配比朗读你的文本。
两者都克隆声音。Index TTS 2 提供细粒度的八情绪控制;Chatterbox 强调广泛多语种覆盖。情绪细腻最重要时挑 Index TTS 2。
按文本每 1000 字符计价。
Audio Reference*
Prompt*
Emotion · Happy*
Emotion · Angry*
Emotion · Sad*
Emotion · Afraid*
Emotion · Disgusted*
Emotion · Melancholic*
Emotion · Surprised*
Emotion · Calm*