
Narration und Sprachübertragung
Generieren Sie klare, ausdrucksstarke Narration für Videos, Erklärungen und Präsentationen.
Google's Gemini 3.1 Flash TTS — ausdrucksstarke Text-zu-Sprache mit 30 Stimmen und Stilsteuerung.
Zahlen Sie einmal für Credits - verwenden Sie sie für jedes Modell auf ZOOOP. · Nachfüllen, wenn es nötig ist, keine monatliche Verbrennung.
Powered by Google's API on ZOOOP
Eine Bibliothek mit 30 benannten Stimmen — von Kore und Puck bis Zephyr und Achernar — die ein breites Spektrum an Tönen und Charakteren abdeckt.
Fügen Sie eine separate Stilanweisung hinzu, um die Lieferung zu steuern — Tempo, Ton und Emotion — über die Worte selbst hinaus.
Aufgebaut auf Googles Gemini-Sprachmodellen für natürliche, ausdrucksstarke Ausgabe.
Abgerechnet nach Textlänge, die Kosten skalieren sauber mit der Skriptgröße.

Generieren Sie klare, ausdrucksstarke Narration für Videos, Erklärungen und Präsentationen.

Verwenden Sie Stilanweisungen, um eine aufmunternde, ruhige oder dramatische Lesung desselben Textes einzustellen.

Wählen Sie aus 30 Stimmen, um verschiedenen Charakteren unterschiedliche Lieferungen zu geben.

Generieren Sie die Stimme, dann steuern Sie damit ein Avatar-Modell wie Kling Avatar V2.

Produzieren Sie konsistente Kursnarration über viele Lektionen hinweg.

Generieren Sie gesprochene Segmente und Intros mit einer gewählten Stimme und einem Stil.
Wählen Sie das richtige Sprachmodell. Ihre Credits funktionieren überall auf ZOOOP.
Öffnen Sie Gemini 3.1 Flash TTS über diese Seite oder wählen Sie ihn in den Audiowerkzeugen.
Fügen Sie Ihren Text ein und wählen Sie eine Stimme.
Fügen Sie bei Bedarf eine Stilanweisung hinzu, um die Lieferung zu steuern.
Generieren Sie, dann laden Sie herunter oder senden Sie die Audio an Ihre Canvas.
Gemini 3.1 Flash TTS ist Googles ausdrucksstarkes Text-zu-Sprache-Modell, aufgebaut auf der Gemini-Sprachlinie. Seine zwei definierenden Stärken sind eine Bibliothek mit 30 benannten Stimmen — Kore, Puck, Zephyr, Achernar und mehr, die ein breites Spektrum an Tönen und Charakteren abdecken — und ein separates Stilanweisungsfeld, das Ihnen ermöglicht, die Lieferung zu steuern. Dasselbe Skript kann je nach Anweisung aufmunternd, ruhig oder dramatisch gelesen werden, was feinere Kontrolle bietet als die Wahl einer Stimme allein.
Die Abrechnung erfolgt pro 1.000 Zeichen, die Kosten skalieren proportional zur Skriptlänge — vorhersehbar für alles von einer kurzen Sprachübertragung bis zu einer vollständigen Narration. Es ist eine natürliche Paarung für Sprech-Avatar-Arbeit : generieren Sie hier die Stimme, dann steuern Sie damit ein Modell wie Kling Avatar V2.
Unter den Sprachmodellen von ZOOOP : Multilingual V3 ist ElevenLabs' Flaggschiff mit tiefer Stimmenkontrolle ; Qwen3-TTS und Inworld TTS führen bei mehrsprachiger Abdeckung und Wert. Gemini 3.1 Flash TTS' Sweet Spot ist ausdrucksstarke, stilgesteuerte Narration mit Googles Stimmen.
Ein sinnvolles Entscheidungsmodell : wählen Sie Gemini 3.1 Flash TTS als Standard, wenn Sie ausdrucksstarke Narration mit expliziter Stilsteuerung wollen, und wechseln Sie zu Multilingual V3 für ElevenLabs' Stimmenbibliothek oder Inworld/Qwen für breite mehrsprachige Abdeckung.
30 benannte Stimmen, die ein breites Spektrum an Tönen und Charakteren abdecken.
Ein separates Feld zur Lieferungssteuerung — Tempo, Ton, Emotion — damit derselbe Text aufmunternd, ruhig oder dramatisch gelesen werden kann.
Pro 1.000 Zeichen Text, die Kosten skalieren mit der Skriptlänge.
Beides sind hochwertige TTS. Gemini 3.1 Flash TTS bietet Googles Stimmen mit Stilanweisungen ; Multilingual V3 ist ElevenLabs' Flaggschiff mit tiefer Stimmenkontrolle. Wählen Sie nach Stimmenpräferenz und Workflow.
Prompt*
Style Instructions
Voice*