Gemini 3.1 Flash TTS 有几个音色?

30 个命名音色,覆盖各种音调和角色。

风格指令是什么?

一个引导表演的独立字段——语速、语气、情绪——让同一段文本能读出活泼、平静或戏剧化。

按文本每 1000 字符计价,成本随脚本长度扩展。

它和 ElevenLabs Multilingual V3 怎么比?

两者都是高质量 TTS。Gemini 3.1 Flash TTS 提供 Google 的音色加风格指令;Multilingual V3 是 ElevenLabs 旗舰,音色控制更深。按音色偏好和工作流选。

ZOOOP 上的 Gemini 3.1 Flash TTS — 富有表现力的文生语音

Q: Gemini 3.1 Flash TTS 有几个音色?

30 个命名音色,覆盖各种音调和角色。

Gemini 3.1 Flash TTS 擅长什么——又不擅长什么

Gemini 3.1 Flash TTS 是 Google 的富有表现力的文生语音模型,基于 Gemini 语音血统。它的两个标志性强项是 30 个命名音色——Kore、Puck、Zephyr、Achernar 等,覆盖各种音调和角色——以及一个独立的风格指令字段,让你指挥表演。同一段脚本可以按指令读出活泼、平静或戏剧化,这比只挑音色给更细的控制。

计价按每 1000 字符,所以成本随脚本长度线性扩展——从短配音到完整旁白都可预测。它天然适合数字人工作:在这里生成语音,再用它驱动 Kling Avatar V2 这类模型。

它在 ZOOOP 语音模型里的位置:Multilingual V3 是 ElevenLabs 旗舰,音色控制更深;Qwen3-TTS 和 Inworld TTS 在多语种覆盖和性价比上领先。Gemini 3.1 Flash TTS 的甜点区是用 Google 音色做富有表现力、风格可控的旁白。

一个合理的心理模型:想要带明确风格控制的富表现力旁白时,默认选 Gemini 3.1 Flash TTS,要 ElevenLabs 音色库就换 Multilingual V3,要广泛多语种覆盖就 Inworld / Qwen。

Gemini 3.1 Flash TTS

Gemini 3.1 Flash TTS

核心能力

30 个音色

风格指令

Google Gemini 血统

按每 1000 字符计价

使用场景

旁白与配音

风格引导的表演

角色配音

驱动说话数字人

在线课程音频

播客与音频内容

如何选对模型

如何使用

深入了解

Gemini 3.1 Flash TTS 擅长什么——又不擅长什么

常见问题

更多模型

Gemini 3.1 Flash TTS