O que o Grok Imagine V1.5 faz bem — e o que não faz
O Grok Imagine V1.5 faz uma coisa e a faz bem: anima uma imagem fixa num curto clipe com som. Você lhe fornece um frame inicial e um prompt descrevendo o movimento, e ele gera o movimento — mais áudio sincronizado nativo — numa única passagem. No preview alcançou a 1ª posição no ranking público do Image-to-Video Arena, um claro salto em relação ao 1.0 tanto em qualidade de movimento quanto na fidelidade com que sua imagem inicial se mantém no plano animado.
A capacidade destacada é o áudio sincronizado nativo. Cada clipe retorna com diálogo, som ambiente e efeitos gerados junto com o vídeo, com sincronização labial em personagens que falam. Para um curto social com som ou um clipe de cabeça falante, isso comprime o que normalmente é um pipeline de três ferramentas — modelo de movimento, depois TTS, depois Foley — num único prompt. A segunda grande melhoria no 1.5 é a consistência temporal: rostos, sujeitos e elementos da cena se mantêm coesos durante todo o clipe em vez de derivar ou deformar quadro a quadro, que era a fraqueza mais visível da versão anterior.
Os clips vão de 1 a 15 segundos em 720p ou 480p com entrega rápida, então é ágil para testar uma ideia de movimento, ver com som e regerar. Esse curto, com som, é exatamente seu ponto ideal.
Onde é mais fraco: V1.5 é apenas imagem-para-vídeo — não gera imagens fixas nem executa texto-para-vídeo, então se precisa de um frame para animar em primeiro lugar, gere-o com o Grok Imagine original ou outro modelo de imagem e alimente-o. A resolução máxima é 720p, não é um modelo de acabamento 1080p ou 4K — para entrega em alta resolução, Kling V3 ou Seedance V2.0 são melhores alvos. E ele anima um único plano, não uma sequência multi-corte; para vídeo com storyboard e cortes duros, mude para Kling V3.
Um modelo mental razoável: recorra ao Grok Imagine V1.5 sempre que a tarefa for "fazer esta imagem se mover, com som" — personagens falantes, movimento de produto, curtas nativos sociais, previz rápido. Quando precisar de maior resolução ou edição multi-plano, promova o plano para um modelo de vídeo mais pesado para o acabamento.