
旁白与配音
为视频、讲解、演示生成清晰、富有表现力的旁白。
Google Gemini 3.1 Flash TTS——富有表现力的文生语音,30 个音色加风格控制。
一次充值积分,通用所有模型,想用再用。 · 按需充值,不存在月度清零。
Powered by Google's API on ZOOOP
30 个命名音色的音色库——从 Kore、Puck 到 Zephyr、Achernar——覆盖各种音调和角色。
加一个独立的风格指令引导表演——语速、语气、情绪——超越文字本身。
基于 Google 的 Gemini 语音模型,输出自然、富有表现力。
按文本长度计价,成本随脚本大小线性扩展。

为视频、讲解、演示生成清晰、富有表现力的旁白。

用风格指令让同一段文本读出活泼、平静或戏剧化的语气。

从 30 个音色里挑,给不同角色不同的表演。

先生成语音,再用它驱动 Kling Avatar V2 这类数字人模型。

跨多节课产出一致的课程旁白。

用选定的音色和风格生成口语片段和片头。
按需求挑语音模型。积分在 ZOOOP 上所有模型通用。
从本页或音频工具里选中 Gemini 3.1 Flash TTS。
粘贴文本并挑一个音色。
需要就加一个风格指令引导表演。
生成,然后下载或发送到画布。
Gemini 3.1 Flash TTS 是 Google 的富有表现力的文生语音模型,基于 Gemini 语音血统。它的两个标志性强项是 30 个命名音色——Kore、Puck、Zephyr、Achernar 等,覆盖各种音调和角色——以及一个独立的风格指令字段,让你指挥表演。同一段脚本可以按指令读出活泼、平静或戏剧化,这比只挑音色给更细的控制。
计价按每 1000 字符,所以成本随脚本长度线性扩展——从短配音到完整旁白都可预测。它天然适合数字人工作:在这里生成语音,再用它驱动 Kling Avatar V2 这类模型。
它在 ZOOOP 语音模型里的位置:Multilingual V3 是 ElevenLabs 旗舰,音色控制更深;Qwen3-TTS 和 Inworld TTS 在多语种覆盖和性价比上领先。Gemini 3.1 Flash TTS 的甜点区是用 Google 音色做富有表现力、风格可控的旁白。
一个合理的心理模型:想要带明确风格控制的富表现力旁白时,默认选 Gemini 3.1 Flash TTS,要 ElevenLabs 音色库就换 Multilingual V3,要广泛多语种覆盖就 Inworld / Qwen。
30 个命名音色,覆盖各种音调和角色。
一个引导表演的独立字段——语速、语气、情绪——让同一段文本能读出活泼、平静或戏剧化。
按文本每 1000 字符计价,成本随脚本长度扩展。
两者都是高质量 TTS。Gemini 3.1 Flash TTS 提供 Google 的音色加风格指令;Multilingual V3 是 ElevenLabs 旗舰,音色控制更深。按音色偏好和工作流选。
Prompt*
Style Instructions
Voice*