
有声书制作
长篇叙述,带情感交付,包括章节和角色间的微妙语调变化。
ElevenLabs 顶级 TTS — 74 种语言、多说话人对话、情感标签、有声书级叙述。
一次充值積分,通用所有模型,想用再用。 · 按需充值,不存在月度清零。
Powered by ElevenLabs's API on ZOOOP
V3 支持 74 种语言——从 V2 的约 29 种提升——覆盖世界绝大多数人口。同一语音特征跨语言保持。
新的文字转对话 API 在单次渲染中生成多个不同说话人的自然逼真对话——跨语言的角色互动,带情感一致性。
[whispering]、[sad]、[laughs]、[shouting] 等内联标签指导跨语言的朗读——西班牙语的 [sad] 标签效果与英语相同。
Aria、Roger、Sarah、Laura、Charlie、George、Callum、River、Liam、Charlotte、Alice、Matilda、Will、Jessica、Eric、Chris、Brian、Daniel、Lily、Bill 等。每种语音都适用于所有 74 种语言。

长篇叙述,带情感交付,包括章节和角色间的微妙语调变化。

多说话人文字转对话处理完整场景,不同角色情感互动——适合动画、游戏和音频剧。

用 74 种语言生成相同脚本,保持一致的语音特征。一种品牌语音,每个市场,无需每种语言单独配音。

平静的解释性语调,强调关键术语——标签让你无需重新录制即可指导节奏和重音。

有声书级保真度,播客广告长度——无需质量损失即可插入现有播客流水线。

使用音频标签为游戏内台词提供上下文特定的朗读([angry]、[whispering]、[tired]),无需配音演员。
为工作选择合适的 TTS 模型。您的积分在 ZOOOP 上通用。
从本页打开 ElevenLabs Multilingual V3 或在音频生成器中选择。
从库中选择语音——每种都适用于所有 74 种语言。
用目标语言写好脚本。添加 [whispering] 或 [sad] 等内联标签指导情感。
生成。多说话人时切换到文字转对话,为每种语音分配台词。
ElevenLabs Multilingual V3 是使多语言 TTS 达到生产就绪的模型。在 TTS 历史的大部分时间里,"多语言"只是勾选框功能——五种语言,运气好十种,非英语选项明显生硬。V3 带着 74 种语言发布——覆盖世界绝大多数人口——非英语朗读保持与英语相同的情感保真度、节奏和自然感。实际效果:单一品牌语音现在可以跨全球市场发布,无需每种语言单独配音,也无需那种总是悄悄混入的非品牌本地朗读。
较少被注意但对制作工作更重要的能力是音频标签作为表演指导。直接放在文本中的内联标记如 [whispering]、[sad]、[laughs]、[shouting]、[angry]、[tired] 被 V3 作为导演指令读取,并应用到你正在生成的任何语言中。西班牙语的 [sad] 标签效果与英语相同;日语的 [whispering] 指令读作安静而非安静的基线。对于有声书叙述、角色对话和音频剧,这折叠了"写台词"和"描述应该听起来怎样"之间的来回——指导就在文本本身中。
第三个旗舰能力是文字转对话 API。多说话人对话,不同角色——每种都有自己的语音——作为带情感一致性的连续交互生成。适合动画配音、游戏过场、音频剧和任何交付物是角色互动而非独白的内容。将 V3 的情感标签与之结合,你就有了一个曾经需要整个配音阵容加导演才能产出的工具。
语音库是数百种多语言语音——Aria、Roger、Sarah、Laura、Charlie、George、Callum、River、Liam、Charlotte、Alice、Matilda、Will、Jessica、Eric、Chris、Brian、Daniel、Lily、Bill 等。每种语音的特征跨所有 74 种语言保持,所以英语中的深沉叙述者声音在普通话、法语和韩语中仍然深沉。对于有声书出版商、在线学习制作商和播客网络,这是"AI 语音"和"制作语音"之间的区别。
较弱的方面:超低延迟实时使用(200ms 内首次响应的实时对话代理)由更轻更快的模型如 MiniMax 的 Speech-2.8-Turbo 更好地服务。从短样本克隆语音受支持,但专门模型如 Chatterbox TTS Multilingual 或 Index TTS 2 专门为那调整。V3 的甜蜜点是高质量叙述、多说话人对话和多语言品牌工作。
一个合理的决策模型:任何质量比毫秒延迟更重要的叙述/对话工作,默认用 V3。
V3 支持 74 种语言(V2 约 29 种),引入情感/指导音频标签,提供文字转对话 API 用于多说话人场景,情感范围明显更自然。V2 仍是强大基线;V3 是任何新项目的升级。
V3 覆盖 74 种语言,包括英语、中文(简体+繁体)、日语、韩语、西班牙语、法语、德语、葡萄牙语、印地语、阿拉伯语、俄语、越南语、泰语、印尼语、土耳其语、波兰语、荷兰语、挪威语、丹麦语等——世界大多数常用语言。
直接放在文本中的内联导演标记,如 `[whispering]`、`[laughs]`、`[sad]`、`[angry]`、`[shouting]`。V3 将它们作为表演指导来读取,并应用到你正在生成的任何语言中。西班牙语的 [sad] 标签效果与英语相同。
能——文字转对话 API 生成跨说话人和语言情感一致的自然多说话人对话。适合音频剧、动画配音、游戏和任何有角色互动的内容。
V3 在语言覆盖(74 种语言,超过任何竞争对手)和指导(音频标签跨语言工作)上领先。超低延迟实时使用,更轻更快的模型如 Speech-2.8-Turbo 更快。完整有声书/剧集制作,V3 是当前质量领导者。
Text*
Voice*
Stability*