ElevenLabs

ElevenLabs Multilingual V3

ElevenLabs 顶级 TTS——74 种语言、多角色对话、情绪标签、有声书级朗读。

无需订阅
积分永不过期
了解更多

一次充值积分,通用所有模型,想用再用。 · 按需充值,不存在月度清零。

Powered by ElevenLabs's API on ZOOOP

核心能力

74 种语言, 同一模型

V3 支持 74 种语言——V2 是约 29 种——覆盖绝大多数地球人口。同一声音特征跨语种保持。

多角色对话

新 Text-to-Dialogue API 单次渲染产出含多个不同角色的自然对话——跨语种的角色互动,情绪保持一致。

情绪指引标签

[whispering] [sad] [laughs] [shouting] 这种内联标签跨语种生效——西语里的 [sad] 和英语里的 [sad] 落地一致。

数百个多语种音色

Aria、Roger、Sarah、Laura、Charlie、George、Callum、River、Liam、Charlotte、Alice、Matilda、Will、Jessica、Eric、Chris、Brian、Daniel、Lily、Bill 等等。每个音色覆盖全部 74 种语言。

使用场景

有声书制作

有声书制作

长篇朗读、有声书级情绪表达——含跨章节、跨角色的微妙音色变化。

角色对白

角色对白

多角色 Text-to-Dialogue 处理含不同角色的完整场景,情绪互动自然——适合动画、游戏、广播剧。

多语种 campaign

多语种 campaign

同一脚本生成 74 种语言版本,音色特征保持。同一品牌声、不同市场、免去按语言重排配音。

在线教育旁白

在线教育旁白

平静的解说语气 + 关键词重音——用标签指引节奏和重音,免去重录。

播客片头与广告

播客片头与广告

有声书级保真在播客广告时长上交付——无质量损失接入现有播客流水线。

游戏角色配音

游戏角色配音

用音频标签交付与上下文相关的朗读([angry][whispering][tired]),免去人工配音。

如何选对模型

按用途挑 TTS 模型。积分在 ZOOOP 上所有模型通用。

顶级画质、74 语种、多角色ElevenLabs V3
完整歌曲 + 人声 + 结构Lyria 3 Pro

如何使用

01

从本页或音频生成器选中 ElevenLabs Multilingual V3。

02

从音色库选一个声音——每个都覆盖全部 74 种语言。

03

用目标语言写脚本,内联加 [whispering] 或 [sad] 这类标签指引情绪。

04

生成。多角色时切换到 Text-to-Dialogue,给每个声音分台词。

深入了解

ElevenLabs Multilingual V3 擅长什么——又不擅长什么

ElevenLabs Multilingual V3 是让多语种 TTS 真正生产可用的模型。TTS 史上大多数时间里,"多语种"是个勾选框功能——5 种语言,运气好 10 种,非英语选项明显生硬。V3 上来 74 种语言——覆盖绝大多数地球人口——而非英语朗读保持着和英语版相同的情绪保真、节奏、自然度。实战影响:一个品牌声音现在可以跨全球市场出货,不用按语言重排配音,也不再有那个永远在偷偷渗入的"本地版变味"问题。

关注度更低但生产上影响更大的能力是音频标签作为表演指引。文本里直接放的内联标记如 [whispering][sad][laughs][shouting][angry][tired],V3 把它们读作导演指令并跨语种应用。西语里的 [sad] 和英语里的 [sad] 落地一致;日语里的 [whispering] 读出来是轻声而不是低基线。对有声书朗读、角色对白、广播剧,这把"写台词"和"描述该怎么读"之间的来回压缩了——指引就活在文本里。

第三个旗舰级能力是 Text-to-Dialogue API。带不同角色——各自有自己声音——的多角色对话,作为连续互动产出,情绪保持一致。适合动画配音、游戏过场、广播剧、任何交付物是角色互动而非独白的内容。配合 V3 的情绪标签,你拿到的是过去需要一整队配音演员加一位导演才能产出的东西。

音色库是数百个多语种音色——Aria、Roger、Sarah、Laura、Charlie、George、Callum、River、Liam、Charlotte、Alice、Matilda、Will、Jessica、Eric、Chris、Brian、Daniel、Lily、Bill 等等。每个音色特征跨全部 74 种语言保持——所以英语里的深沉旁白音色在普通话、法语、韩语里仍然是深沉的。对有声书出版商、在线教育制作方、播客网络,这是"AI 声"和"出版声"的差别。

它弱在哪:超低延迟实时用(对话 agent 首响应低于 200ms)更适合用更轻、更快的模型如 MiniMax 的 Speech-2.8-Turbo。短样本声音克隆支持,但 Chatterbox TTS Multilingual 或 Index TTS 2 这类专门模型更擅长。V3 的甜点区是高质量朗读、多角色对话、多语种品牌项目。

一个合理的心理模型:任何朗读 / 对话工作,质量比毫秒延迟重要时,默认选 V3

常见问题

V3 和 V2 / Multilingual V2 有什么区别?+

V3 支持 74 种语言(V2 约 29 种),引入情绪 / 指引标签,发布 Text-to-Dialogue API 做多角色场景,且情绪表达明显更自然。V2 仍是稳健基线;V3 是任何新项目的升级选项。

V3 支持我的语言吗?+

V3 覆盖 74 种语言含英语、简体 + 繁体中文、日语、韩语、西语、法语、德语、葡语、印地语、阿拉伯语、俄语、越南语、泰语、印尼语、土耳其语、波兰语、荷兰语、挪威语、丹麦语等——大多数常用语言都在内。

音频标签是什么?+

文本里放的内联导演标记,如 `[whispering]`、`[laughs]`、`[sad]`、`[angry]`、`[shouting]`。V3 把它们读作表演指引并在你正在生成的任何语言上应用情绪。西语里的 [sad] 和英语里的 [sad] 落地一致。

V3 能做多角色对话吗?+

能——Text-to-Dialogue API 产出含多角色的自然对话,跨角色和跨语种保持情绪一致。适合广播剧、动画配音、游戏、任何带角色互动的内容。

V3 和其他 TTS 模型怎么比?+

V3 在语种覆盖(74 种, 同档最多)和指引(标签跨语种生效)上领先。要超低延迟实时用,Speech-2.8-Turbo 这类轻模型更快。要完整有声书 / 剧制作,V3 是当前质量领跑者。

更多模型