ElevenLabs Multilingual V3

O TTS de topo da ElevenLabs — 74 idiomas, diálogo multi-falante, etiquetas de emoção, narração de qualidade audiolivro.

Sem assinatura

Os créditos nunca expiram

Saiba mais

Pague uma vez por créditos e use-os em todos os modelos em ZOOOP. · Recarregue quando precisar, sem queima mensal.

ElevenLabs Multilingual V3

Text*

CJK = 2 caracteres · 0/10000

Voice*

Stability*

0.50

Principais características

74 idiomas, um modelo

O V3 suporta 74 idiomas — contra ~29 no V2 — cobrindo a vasta maioria da população mundial. A mesma característica de voz se mantém entre idiomas.

Diálogo multi-falante

A nova API Text-to-Dialogue gera diálogos realistas naturais com múltiplos falantes distintos numa única renderização — interações de personagens entre idiomas, com consistência emocional.

Etiquetas áudio para direção

Etiquetas inline como [whispering], [sad], [laughs], [shouting] direcionam a leitura entre idiomas — uma etiqueta [sad] em espanhol funciona da mesma forma que em inglês.

Centenas de vozes multilingues

Aria, Roger, Sarah, Laura, Charlie, George, Callum, River, Liam, Charlotte, Alice, Matilda, Will, Jessica, Eric, Chris, Brian, Daniel, Lily, Bill — e muitas mais. Cada uma funciona em todos os 74 idiomas.

Casos de uso

Produção de audiolivros

Narração de longa duração com entrega emocional de qualidade audiolivro, incluindo mudanças de tom subtis entre capítulos e personagens.

Diálogo de personagens

O Text-to-Dialogue multi-falante lida com cenas completas com personagens distintos que interagem emocionalmente — útil para animação, jogos e drama áudio.

Campanhas multilingues

Gere o mesmo guião em 74 idiomas com características vocais consistentes. Uma voz de marca, cada mercado, sem elenco separado por idioma.

Narração e-learning

Tom explicativo calmo com ênfase em termos-chave — as etiquetas permitem direcionar ritmo e ênfase sem regravação.

Intros e anúncios de podcast

Fidelidade de qualidade audiolivro em durações de anúncio de podcast — insira em pipelines de podcast existentes sem perda de qualidade.

Voz de personagem de jogo

Use etiquetas áudio para entregar leituras específicas de contexto ([angry], [whispering], [tired]) para diálogos no jogo sem elenco de voz.

Escolha o modelo certo

Escolha o modelo TTS certo para o trabalho. Os seus créditos funcionam em todo o ZOOOP.

Qualidade máxima, 74 idiomas, multi-falanteElevenLabs V3 ←

Canção completa com voz + estruturaLyria 3 Pro

Como usar

Abra o ElevenLabs Multilingual V3 a partir desta página ou selecione-o no Gerador de Áudio.

Escolha uma voz da biblioteca — cada uma funciona em todos os 74 idiomas.

Escreva o guião no seu idioma alvo. Adicione etiquetas inline como [whispering] ou [sad] para direcionar a emoção.

Gere. Para multi-falante, mude para Text-to-Dialogue e atribua réplicas por voz.

Mergulho profundo

O que o ElevenLabs Multilingual V3 faz bem — e o que não faz

O ElevenLabs Multilingual V3 é o modelo que tornou o TTS multilingue pronto para produção. Durante a maior parte da história do TTS, "multilingue" era uma funcionalidade de caixa de seleção — cinco idiomas, dez se tivesse sorte, com as opções não-inglesas visivelmente rígidas. O V3 é lançado com 74 idiomas — cobrindo a vasta maioria da população mundial — e as leituras não-inglesas mantêm a mesma fidelidade emocional, ritmo e naturalismo que as inglesas. Efeito prático : uma única voz de marca agora é entregue em mercados globais sem elenco separado por idioma e sem a leitura local fora da marca que sempre se infiltrava.

A capacidade que recebe menos atenção mas conta mais para trabalho de produção são as etiquetas áudio como direção de desempenho. Marcas inline como [whispering], [sad], [laughs], [shouting], [angry], [tired] colocadas diretamente no texto são lidas pelo V3 como instruções de direção e aplicadas em qualquer idioma em que esteja a gerar. Uma etiqueta [sad] em espanhol funciona da mesma forma que em inglês ; uma instrução [whispering] em japonês lê-se como um sussurro e não como uma linha de base calma. Para narração de audiolivros, diálogo de personagens e drama áudio, isso dobra o vai-e-vem entre "escrever a réplica" e "descrever como deveria soar" — a direção vive no próprio texto.

A terceira capacidade bandeirante é a API Text-to-Dialogue. Conversas multi-falante com personagens distintos — cada um com sua própria voz — geradas como uma interação contínua com consistência emocional. Útil para dobragem de animação, cutscenes de jogos, drama áudio e qualquer conteúdo onde o entregável é interação de personagens e não monólogo. Combine isso com as etiquetas de emoção do V3 e tem uma ferramenta que produzia o que antes exigia um elenco de voz inteiro mais um diretor.

A biblioteca de vozes são centenas de vozes multilingues — Aria, Roger, Sarah, Laura, Charlie, George, Callum, River, Liam, Charlotte, Alice, Matilda, Will, Jessica, Eric, Chris, Brian, Daniel, Lily, Bill e muitas mais. Cada voz mantém sua característica em todos os 74 idiomas, portanto uma voz de narrador profunda em inglês permanece profunda em mandarim, francês e coreano. Para editores de audiolivros, produtores de e-learning e redes de podcasts, essa é a diferença entre "voz IA" e "voz de produção".

Onde é mais fraco : uso em tempo real de ultra-baixa latência (agentes conversacionais ao vivo com menos de 200ms de primeira resposta) é melhor servido por modelos mais leves e rápidos como o Speech-2.8-Turbo da MiniMax. Clonagem de voz a partir de amostras curtas é suportada mas modelos especializados como o Chatterbox TTS Multilingual ou Index TTS 2 são especificamente ajustados para isso. O ponto forte do V3 é a narração de alta qualidade, diálogo multi-falante e trabalho de marca multilingue.

Um modelo mental razoável : o V3 é o padrão para qualquer trabalho de narração / diálogo onde a qualidade importa mais do que a latência em milissegundos.

Perguntas frequentes

Como o V3 difere do V2 / Multilingual V2?+

O V3 suporta 74 idiomas (contra ~29 no V2), introduz etiquetas áudio de emoção/direção, disponibiliza a API Text-to-Dialogue para cenas multi-falante, e produz uma gama emocional visivelmente mais natural. O V2 continua a ser uma base sólida ; o V3 é a atualização para qualquer novo projeto.

O V3 funciona no meu idioma?+

O V3 cobre 74 idiomas incluindo inglês, chinês (simplificado + tradicional), japonês, coreano, espanhol, francês, alemão, português, hindi, árabe, russo, vietnamita, tailandês, indonésio, turco, polaco, holandês, norueguês, dinamarquês e muitos mais — a maioria dos idiomas comumente usados no mundo.

O que são etiquetas áudio?+

Marcas de direção inline como `[whispering]`, `[laughs]`, `[sad]`, `[angry]`, `[shouting]` colocadas diretamente no texto. O V3 lê-as como instruções de desempenho e aplica a emoção em qualquer idioma em que esteja a gerar. Uma etiqueta [sad] em espanhol funciona da mesma forma que em inglês.

O V3 pode fazer diálogo multi-falante?+

Sim — a API Text-to-Dialogue gera conversas multi-falante naturais com consistência emocional entre falantes e idiomas. Útil para drama áudio, dobragem de animação, jogos e qualquer conteúdo com interações de personagens.

Como o V3 se compara com outros modelos TTS?+

O V3 lidera em cobertura linguística (74 idiomas, mais que qualquer concorrente) e em direção (etiquetas áudio funcionam entre idiomas). Para uso em tempo real de ultra-baixa latência, modelos mais leves como o Speech-2.8-Turbo da MiniMax são mais rápidos. Para produção completa de audiolivros / dramas, o V3 é o líder de qualidade atual.