
Produção de audiolivros
Narração de longa duração com entrega emocional de qualidade audiolivro, incluindo mudanças de tom subtis entre capítulos e personagens.
O TTS de topo da ElevenLabs — 74 idiomas, diálogo multi-falante, etiquetas de emoção, narração de qualidade audiolivro.
Pague uma vez por créditos e use-os em todos os modelos em ZOOOP. · Recarregue quando precisar, sem queima mensal.
Powered by ElevenLabs's API on ZOOOP
O V3 suporta 74 idiomas — contra ~29 no V2 — cobrindo a vasta maioria da população mundial. A mesma característica de voz se mantém entre idiomas.
A nova API Text-to-Dialogue gera diálogos realistas naturais com múltiplos falantes distintos numa única renderização — interações de personagens entre idiomas, com consistência emocional.
Etiquetas inline como [whispering], [sad], [laughs], [shouting] direcionam a leitura entre idiomas — uma etiqueta [sad] em espanhol funciona da mesma forma que em inglês.
Aria, Roger, Sarah, Laura, Charlie, George, Callum, River, Liam, Charlotte, Alice, Matilda, Will, Jessica, Eric, Chris, Brian, Daniel, Lily, Bill — e muitas mais. Cada uma funciona em todos os 74 idiomas.

Narração de longa duração com entrega emocional de qualidade audiolivro, incluindo mudanças de tom subtis entre capítulos e personagens.

O Text-to-Dialogue multi-falante lida com cenas completas com personagens distintos que interagem emocionalmente — útil para animação, jogos e drama áudio.

Gere o mesmo guião em 74 idiomas com características vocais consistentes. Uma voz de marca, cada mercado, sem elenco separado por idioma.

Tom explicativo calmo com ênfase em termos-chave — as etiquetas permitem direcionar ritmo e ênfase sem regravação.

Fidelidade de qualidade audiolivro em durações de anúncio de podcast — insira em pipelines de podcast existentes sem perda de qualidade.

Use etiquetas áudio para entregar leituras específicas de contexto ([angry], [whispering], [tired]) para diálogos no jogo sem elenco de voz.
Escolha o modelo TTS certo para o trabalho. Os seus créditos funcionam em todo o ZOOOP.
Abra o ElevenLabs Multilingual V3 a partir desta página ou selecione-o no Gerador de Áudio.
Escolha uma voz da biblioteca — cada uma funciona em todos os 74 idiomas.
Escreva o guião no seu idioma alvo. Adicione etiquetas inline como [whispering] ou [sad] para direcionar a emoção.
Gere. Para multi-falante, mude para Text-to-Dialogue e atribua réplicas por voz.
O ElevenLabs Multilingual V3 é o modelo que tornou o TTS multilingue pronto para produção. Durante a maior parte da história do TTS, "multilingue" era uma funcionalidade de caixa de seleção — cinco idiomas, dez se tivesse sorte, com as opções não-inglesas visivelmente rígidas. O V3 é lançado com 74 idiomas — cobrindo a vasta maioria da população mundial — e as leituras não-inglesas mantêm a mesma fidelidade emocional, ritmo e naturalismo que as inglesas. Efeito prático : uma única voz de marca agora é entregue em mercados globais sem elenco separado por idioma e sem a leitura local fora da marca que sempre se infiltrava.
A capacidade que recebe menos atenção mas conta mais para trabalho de produção são as etiquetas áudio como direção de desempenho. Marcas inline como [whispering], [sad], [laughs], [shouting], [angry], [tired] colocadas diretamente no texto são lidas pelo V3 como instruções de direção e aplicadas em qualquer idioma em que esteja a gerar. Uma etiqueta [sad] em espanhol funciona da mesma forma que em inglês ; uma instrução [whispering] em japonês lê-se como um sussurro e não como uma linha de base calma. Para narração de audiolivros, diálogo de personagens e drama áudio, isso dobra o vai-e-vem entre "escrever a réplica" e "descrever como deveria soar" — a direção vive no próprio texto.
A terceira capacidade bandeirante é a API Text-to-Dialogue. Conversas multi-falante com personagens distintos — cada um com sua própria voz — geradas como uma interação contínua com consistência emocional. Útil para dobragem de animação, cutscenes de jogos, drama áudio e qualquer conteúdo onde o entregável é interação de personagens e não monólogo. Combine isso com as etiquetas de emoção do V3 e tem uma ferramenta que produzia o que antes exigia um elenco de voz inteiro mais um diretor.
A biblioteca de vozes são centenas de vozes multilingues — Aria, Roger, Sarah, Laura, Charlie, George, Callum, River, Liam, Charlotte, Alice, Matilda, Will, Jessica, Eric, Chris, Brian, Daniel, Lily, Bill e muitas mais. Cada voz mantém sua característica em todos os 74 idiomas, portanto uma voz de narrador profunda em inglês permanece profunda em mandarim, francês e coreano. Para editores de audiolivros, produtores de e-learning e redes de podcasts, essa é a diferença entre "voz IA" e "voz de produção".
Onde é mais fraco : uso em tempo real de ultra-baixa latência (agentes conversacionais ao vivo com menos de 200ms de primeira resposta) é melhor servido por modelos mais leves e rápidos como o Speech-2.8-Turbo da MiniMax. Clonagem de voz a partir de amostras curtas é suportada mas modelos especializados como o Chatterbox TTS Multilingual ou Index TTS 2 são especificamente ajustados para isso. O ponto forte do V3 é a narração de alta qualidade, diálogo multi-falante e trabalho de marca multilingue.
Um modelo mental razoável : o V3 é o padrão para qualquer trabalho de narração / diálogo onde a qualidade importa mais do que a latência em milissegundos.
O V3 suporta 74 idiomas (contra ~29 no V2), introduz etiquetas áudio de emoção/direção, disponibiliza a API Text-to-Dialogue para cenas multi-falante, e produz uma gama emocional visivelmente mais natural. O V2 continua a ser uma base sólida ; o V3 é a atualização para qualquer novo projeto.
O V3 cobre 74 idiomas incluindo inglês, chinês (simplificado + tradicional), japonês, coreano, espanhol, francês, alemão, português, hindi, árabe, russo, vietnamita, tailandês, indonésio, turco, polaco, holandês, norueguês, dinamarquês e muitos mais — a maioria dos idiomas comumente usados no mundo.
Marcas de direção inline como `[whispering]`, `[laughs]`, `[sad]`, `[angry]`, `[shouting]` colocadas diretamente no texto. O V3 lê-as como instruções de desempenho e aplica a emoção em qualquer idioma em que esteja a gerar. Uma etiqueta [sad] em espanhol funciona da mesma forma que em inglês.
Sim — a API Text-to-Dialogue gera conversas multi-falante naturais com consistência emocional entre falantes e idiomas. Útil para drama áudio, dobragem de animação, jogos e qualquer conteúdo com interações de personagens.
O V3 lidera em cobertura linguística (74 idiomas, mais que qualquer concorrente) e em direção (etiquetas áudio funcionam entre idiomas). Para uso em tempo real de ultra-baixa latência, modelos mais leves como o Speech-2.8-Turbo da MiniMax são mais rápidos. Para produção completa de audiolivros / dramas, o V3 é o líder de qualidade atual.
Text*
Voice*
Stability*