
Narration et voix off
Générez une narration claire et expressive pour les vidéos, explications et présentations.
Le Gemini 3.1 Flash TTS de Google — synthèse vocale expressive avec 30 voix et contrôle du style.
Payez une fois pour les crédits - utilisez-les sur tous les modèles de ZOOOP. · Rechargez quand vous en avez besoin, pas de brûlure mensuelle.
Powered by Google's API on ZOOOP
Une bibliothèque de 30 voix nommées — de Kore et Puck à Zephyr et Achernar — couvrant un large éventail de tons et de personnages.
Ajoutez une instruction de style séparée pour orienter la livraison — rythme, ton et émotion — au-delà des mots eux-mêmes.
Construit sur les modèles vocaux Gemini de Google pour une sortie naturelle et expressive.
Facturé par longueur de texte, le coût augmente proportionnellement à la taille du script.

Générez une narration claire et expressive pour les vidéos, explications et présentations.

Utilisez les instructions de style pour définir une lecture dynamique, calme ou dramatique à partir du même texte.

Choisissez parmi 30 voix pour donner à différents personnages des livraisons distinctes.

Générez la voix, puis pilotez un modèle d'avatar comme Kling Avatar V2 avec.

Produisez une narration de cours cohérente sur de nombreuses leçons.

Générez des segments parlés et des intros avec une voix et un style choisis.
Choisissez le bon modèle vocal. Vos crédits fonctionnent partout sur ZOOOP.
Ouvrez Gemini 3.1 Flash TTS depuis cette page ou sélectionnez-le dans les outils Audio.
Collez votre texte et choisissez une voix.
Ajoutez une instruction de style pour orienter la livraison si nécessaire.
Générez, puis téléchargez ou envoyez l'audio sur votre canvas.
Gemini 3.1 Flash TTS est le modèle de synthèse vocale expressive de Google, construit sur la lignée vocale Gemini. Ses deux forces distinctives sont une bibliothèque de 30 voix nommées — Kore, Puck, Zephyr, Achernar et plus, couvrant un large éventail de tons et de personnages — et un champ d'instruction de style séparé qui vous permet de diriger la livraison. Le même script peut être lu de manière dynamique, calme ou dramatique selon l'instruction, ce qui offre un contrôle plus fin que le choix d'une voix seule.
La facturation est par tranche de 1 000 caractères, le coût augmente proportionnellement à la longueur du script — prévisible pour tout, d'une courte voix off à une narration complète. C'est un appariement naturel pour le travail d'avatar parlant : générez la voix ici, puis pilotez un modèle comme Kling Avatar V2 avec.
Parmi les modèles vocaux de ZOOOP : Multilingual V3 est le phare d'ElevenLabs avec un contrôle vocal approfondi ; Qwen3-TTS et Inworld TTS mènent en couverture multilingue et en valeur. Le point fort de Gemini 3.1 Flash TTS est la narration expressive et dirigée par le style avec les voix de Google.
Un modèle mental raisonnable : par défaut avec Gemini 3.1 Flash TTS quand vous voulez une narration expressive avec un contrôle explicite du style, et passez à Multilingual V3 pour la bibliothèque vocale d'ElevenLabs ou Inworld/Qwen pour une large couverture multilingue.
30 voix nommées couvrant un large éventail de tons et de personnages.
Un champ séparé pour diriger la livraison — rythme, ton, émotion — pour que le même texte puisse être lu de manière dynamique, calme ou dramatique.
Par tranche de 1 000 caractères de texte, le coût augmente avec la longueur du script.
Les deux sont des TTS de haute qualité. Gemini 3.1 Flash TTS offre les voix de Google avec des instructions de style ; Multilingual V3 est le phare d'ElevenLabs avec un contrôle vocal approfondi. Choisissez selon la préférence vocale et le workflow.
Prompt*
Style Instructions
Voice*