
Narração e voz over
Gere narração clara e expressiva para vídeos, explicações e apresentações.
O Gemini 3.1 Flash TTS da Google — síntese de voz expressiva com 30 vozes e controlo de estilo.
Pague uma vez por créditos e use-os em todos os modelos em ZOOOP. · Recarregue quando precisar, sem queima mensal.
Powered by Google's API on ZOOOP
Uma biblioteca de 30 vozes com nome — de Kore e Puck a Zephyr e Achernar — cobrindo uma vasta gama de tons e personagens.
Adicione uma instrução de estilo separada para orientar a entrega — ritmo, tom e emoção — para além das próprias palavras.
Construído sobre os modelos de voz Gemini da Google para uma saída natural e expressiva.
Faturado por comprimento de texto, os custos escalam com o tamanho do guião.

Gere narração clara e expressiva para vídeos, explicações e apresentações.

Use instruções de estilo para definir uma leitura animada, calma ou dramática a partir do mesmo texto.

Escolha entre 30 vozes para dar a diferentes personagens entregas distintas.

Gere a voz, depois conduza um modelo de avatar como o Kling Avatar V2 com ela.

Produza narração de curso consistente ao longo de muitas lições.

Gere segmentos falados e intros com uma voz e estilo escolhidos.
Escolha o modelo de voz certo. Os seus créditos funcionam em todo o ZOOOP.
Abra o Gemini 3.1 Flash TTS a partir desta página ou selecione-o nas ferramentas de Áudio.
Cole o seu texto e escolha uma voz.
Adicione uma instrução de estilo para orientar a entrega se necessário.
Gere, depois descarregue ou envie o áudio para a sua canvas.
O Gemini 3.1 Flash TTS é o modelo de síntese de voz expressiva da Google, construído sobre a linhagem de voz Gemini. As suas duas forças distintivas são uma biblioteca de 30 vozes com nome — Kore, Puck, Zephyr, Achernar e mais, cobrindo uma vasta gama de tons e personagens — e um campo de instrução de estilo separado que lhe permite orientar a entrega. O mesmo guião pode ser lido de forma animada, calma ou dramática dependendo da instrução, o que oferece controlo mais fino do que escolher apenas uma voz.
A faturação é por 1.000 caracteres, os custos escalam proporcionalmente ao comprimento do guião — previsível para tudo, desde uma curta voz over até uma narração completa. É um emparelhamento natural para trabalho de avatar falante: gere a voz aqui, depois conduza um modelo como o Kling Avatar V2 com ela.
Entre os modelos de voz do ZOOOP: o Multilingual V3 é o insignia da ElevenLabs com controlo profundo de voz; o Qwen3-TTS e o Inworld TTS lideram em cobertura multilingue e valor. O ponto forte do Gemini 3.1 Flash TTS é a narração expressiva e orientada por estilo com as vozes da Google.
Um modelo mental razoável: use o Gemini 3.1 Flash TTS por predefinição quando quer narração expressiva com controlo explícito de estilo, e mude para o Multilingual V3 para a biblioteca de vozes da ElevenLabs ou Inworld/Qwen para ampla cobertura multilingue.
30 vozes com nome cobrindo uma vasta gama de tons e personagens.
Um campo separado para orientar a entrega — ritmo, tom, emoção — para que o mesmo texto possa ser lido de forma animada, calma ou dramática.
Por 1.000 caracteres de texto, os custos escalam com o comprimento do guião.
Ambos são TTS de alta qualidade. O Gemini 3.1 Flash TTS oferece as vozes da Google com instruções de estilo; o Multilingual V3 é o insignia da ElevenLabs com controlo profundo de voz. Escolha pela preferência de voz e workflow.
Prompt*
Style Instructions
Voice*