Gemini 3.1 Flash TTS 有多少種聲音？

30 種命名聲音，涵蓋多種語調和角色。

什麼是風格指令？

一個獨立欄位來引導語氣——節奏、語調、情感——相同文字可以活潑、平靜或戲劇性地朗讀。

按每 1,000 字元計費，成本隨腳本長度增長。

與 ElevenLabs Multilingual V3 相比如何？

兩者都是高品質 TTS。Gemini 3.1 Flash TTS 提供 Google 的聲音和風格指令；Multilingual V3 是 ElevenLabs 的旗艦，具有深度聲音控制。按聲音偏好和工作流程選擇。

ZOOOP 上的 Gemini 3.1 Flash TTS — 富有表現力的文字轉語音

Q: Gemini 3.1 Flash TTS 有多少種聲音？

30 種命名聲音，涵蓋多種語調和角色。

Gemini 3.1 Flash TTS 擅長什麼——又不擅長什麼

Gemini 3.1 Flash TTS 是 Google 的富有表現力的文字轉語音模型，基於 Gemini 語音血統構建。它的兩個定義優勢是一個包含 30 種命名聲音的庫——Kore、Puck、Zephyr、Achernar 等，涵蓋廣泛的語調和角色——以及一個獨立的風格指令欄位，讓你可以引導語氣。相同腳本可以根據指令活潑、平靜或戲劇性地朗讀，這比僅選擇聲音提供了更精細的控制。

定價是每 1,000 字元，成本隨腳本長度線性增長——從短配音到完整旁白都可預測。它是說話頭像工作的自然搭配：在這裡生成語音，然後用它驅動像 Kling Avatar V2 這樣的模型。

在 ZOOOP 語音模型中的定位：Multilingual V3 是 ElevenLabs 的旗艦，具有深度聲音控制；Qwen3-TTS 和 Inworld TTS 在多語言覆蓋和價值上領先。Gemini 3.1 Flash TTS 的甜蜜點是用 Google 聲音進行富有表現力、風格引導的旁白。

一個實用的判斷原則：當你想要富有表現力的旁白含明確風格控制時，預設選 Gemini 3.1 Flash TTS，切換到 Multilingual V3 獲得 ElevenLabs 的聲音庫，或 Inworld/Qwen 獲得廣泛多語言覆蓋。

Gemini 3.1 Flash TTS

Gemini 3.1 Flash TTS

核心能力

30 種聲音

風格指令

Google Gemini 血統

每 1,000 字元計費

使用場景

旁白和配音

風格引導語氣

角色聲音

驅動說話頭像

電子學習音訊

播客和音訊內容

如何選對模型

如何使用

深入瞭解

Gemini 3.1 Flash TTS 擅長什麼——又不擅長什麼

常見問題

更多模型

Gemini 3.1 Flash TTS