
旁白和配音
為視訊、解說和簡報生成清晰、富有表現力的旁白。
Google 的 Gemini 3.1 Flash TTS——富有表現力的文字轉語音,30 種聲音和風格控制。
一次充值積分,通用所有模型,想用再用。 · 按需充值,不存在月度清零。
Powered by Google's API on ZOOOP
一個包含 30 種命名聲音的庫——從 Kore 和 Puck 到 Zephyr 和 Achernar——涵蓋廣泛的語調和角色。
加入獨立的風格指令來引導語氣——節奏、語調和情感——超越文字本身。
基於 Google 的 Gemini 語音模型構建,提供自然、富有表現力的輸出。
按文字長度計費,成本隨腳本大小線性增長。

為視訊、解說和簡報生成清晰、富有表現力的旁白。

使用風格指令從相同文字設定活潑、平靜或戲劇性的朗讀。

從 30 種聲音中選擇,賦予不同角色獨特的語氣。

生成語音,然後用它驅動像 Kling Avatar V2 這樣的頭像模型。

跨多個課程產生一致的課程旁白。

用選定的聲音和風格生成口語片段和開場。
選對語音模型。點數在 ZOOOP 上所有模型通用。
從本頁或音訊工具選取 Gemini 3.1 Flash TTS。
貼上文字並選擇聲音。
如需要加入風格指令引導語氣。
生成後下載或發送到畫布。
Gemini 3.1 Flash TTS 是 Google 的富有表現力的文字轉語音模型,基於 Gemini 語音血統構建。它的兩個定義優勢是一個包含 30 種命名聲音的庫——Kore、Puck、Zephyr、Achernar 等,涵蓋廣泛的語調和角色——以及一個獨立的風格指令欄位,讓你可以引導語氣。相同腳本可以根據指令活潑、平靜或戲劇性地朗讀,這比僅選擇聲音提供了更精細的控制。
定價是每 1,000 字元,成本隨腳本長度線性增長——從短配音到完整旁白都可預測。它是說話頭像工作的自然搭配:在這裡生成語音,然後用它驅動像 Kling Avatar V2 這樣的模型。
在 ZOOOP 語音模型中的定位:Multilingual V3 是 ElevenLabs 的旗艦,具有深度聲音控制;Qwen3-TTS 和 Inworld TTS 在多語言覆蓋和價值上領先。Gemini 3.1 Flash TTS 的甜蜜點是用 Google 聲音進行富有表現力、風格引導的旁白。
一個實用的判斷原則:當你想要富有表現力的旁白含明確風格控制時,預設選 Gemini 3.1 Flash TTS,切換到 Multilingual V3 獲得 ElevenLabs 的聲音庫,或 Inworld/Qwen 獲得廣泛多語言覆蓋。
30 種命名聲音,涵蓋多種語調和角色。
一個獨立欄位來引導語氣——節奏、語調、情感——相同文字可以活潑、平靜或戲劇性地朗讀。
按每 1,000 字元計費,成本隨腳本長度增長。
兩者都是高品質 TTS。Gemini 3.1 Flash TTS 提供 Google 的聲音和風格指令;Multilingual V3 是 ElevenLabs 的旗艦,具有深度聲音控制。按聲音偏好和工作流程選擇。
Prompt*
Style Instructions
Voice*