
Narración y voz en off
Genera narración clara y expresiva para vídeos, explicaciones y presentaciones.
El Gemini 3.1 Flash TTS de Google — síntesis de voz expresiva con 30 voces y control de estilo.
Paga una vez por los créditos: utilízalos en todos los modelos en ZOOOP. · Recarga cuando lo necesites, sin quemaduras mensuales.
Powered by Google's API on ZOOOP
Una biblioteca de 30 voces con nombre — desde Kore y Puck hasta Zephyr y Achernar — cubriendo una amplia gama de tonos y personajes.
Añade una instrucción de estilo separada para guiar la entrega — ritmo, tono y emoción — más allá de las propias palabras.
Construido sobre los modelos de voz Gemini de Google para una salida natural y expresiva.
Facturado por longitud de texto, los costes escalan con el tamaño del guion.

Genera narración clara y expresiva para vídeos, explicaciones y presentaciones.

Usa instrucciones de estilo para definir una lectura animada, tranquila o dramática desde el mismo texto.

Elige entre 30 voces para dar a diferentes personajes entregas distintas.

Genera la voz, luego conduce un modelo de avatar como Kling Avatar V2 con ella.

Produce narración de curso consistente a lo largo de muchas lecciones.

Genera segmentos hablados e intros con una voz y estilo elegidos.
Elige el modelo de voz adecuado. Tus créditos funcionan en todo ZOOOP.
Abre Gemini 3.1 Flash TTS desde esta página o selecciónalo en las herramientas de Audio.
Pega tu texto y elige una voz.
Añade una instrucción de estilo para guiar la entrega si es necesario.
Genera, luego descarga o envía el audio a tu canvas.
Gemini 3.1 Flash TTS es el modelo de síntesis de voz expresiva de Google, construido sobre el linaje de voz Gemini. Sus dos fortalezas definitorias son una biblioteca de 30 voces con nombre — Kore, Puck, Zephyr, Achernar y más, cubriendo una amplia gama de tonos y personajes — y un campo de instrucción de estilo separado que te permite dirigir la entrega. El mismo guion puede leerse de forma animada, tranquila o dramática según la instrucción, lo que ofrece un control más fino que elegir solo una voz.
La facturación es por 1.000 caracteres, los costes escalan proporcionalmente con la longitud del guion — predecible para todo, desde una corta voz en off hasta una narración completa. Es un emparejamiento natural para trabajo de avatar hablante: genera la voz aquí, luego conduce un modelo como Kling Avatar V2 con ella.
Entre los modelos de voz de ZOOOP: Multilingual V3 es el insignia de ElevenLabs con control profundo de voz; Qwen3-TTS e Inworld TTS lideran en cobertura multilingüe y valor. El punto fuerte de Gemini 3.1 Flash TTS es la narración expresiva y dirigida por estilo con las voces de Google.
Un modelo mental razonable: usa Gemini 3.1 Flash TTS por defecto cuando quieres narración expresiva con control explícito de estilo, y cambia a Multilingual V3 para la biblioteca de voces de ElevenLabs o Inworld/Qwen para amplia cobertura multilingüe.
30 voces con nombre cubriendo una amplia gama de tonos y personajes.
Un campo separado para dirigir la entrega — ritmo, tono, emoción — para que el mismo texto pueda leerse de forma animada, tranquila o dramática.
Por 1.000 caracteres de texto, los costes escalan con la longitud del guion.
Ambos son TTS de alta calidad. Gemini 3.1 Flash TTS ofrece las voces de Google con instrucciones de estilo; Multilingual V3 es el insignia de ElevenLabs con control profundo de voz. Elige por preferencia de voz y flujo de trabajo.
Prompt*
Style Instructions
Voice*