Ce que Grok Imagine V1.5 fait bien — et ce qu'il ne fait pas
Grok Imagine V1.5 fait une chose et la fait bien : il anime une image fixe en un court clip avec du son. Vous lui donnez une image de départ et un prompt décrivant le mouvement, et il génère le mouvement — plus de l'audio synchronisé natif — en un seul passage. En preview il a atteint la 1ère place du classement public Image-to-Video Arena, un net progrès par rapport à 1.0 tant en qualité de mouvement que dans la fidélité avec laquelle votre image de départ se prolonge dans le plan animé.
La capacité phare est l'audio synchronisé natif. Chaque clip revient avec du dialogue, du son d'ambiance et des effets générés avec la vidéo, avec synchronisation labiale sur les personnages parlants. Pour un court social sonore ou un clip de tête parlante, cela compresse ce qui est normalement un pipeline à trois outils — modèle de mouvement, puis TTS, puis Foley — en un seul prompt. La deuxième grande avancée de 1.5 est la cohérence temporelle : visages, sujets et éléments de scène restent cohérents sur tout le clip au lieu de dériver ou se déformer d'une image à l'autre, ce qui était la faiblesse la plus visible de la version précédente.
Les clips durent de 1 à 15 secondes en 720p ou 480p avec un turnaround rapide, donc c'est agile pour essayer une idée de mouvement, la voir avec du son et regénérer. Ce court, sonore, est exactement son point fort.
Où c'est plus faible : V1.5 est uniquement image-vers-vidéo — il ne génère pas d'images fixes ni n'exécute de texte-vers-vidéo, donc si vous avez besoin d'une image à animer en premier lieu, générez-la avec le Grok Imagine original ou un autre modèle d'image et passez-la. La résolution plafonne à 720p, ce n'est pas un modèle de finition 1080p ou 4K — pour la livraison haute résolution, Kling V3 ou Seedance V2.0 sont de meilleures cibles. Et il anime un seul plan, pas une séquence multi-coupes ; pour la vidéo story-boardée avec des coupes dures, passez à Kling V3.
Un modèle mental raisonnable : recourez à Grok Imagine V1.5 dès que la tâche est « faire bouger cette image, avec du son » — personnages parlants, mouvement de produit, courts natifs sociaux, previz rapide. Quand vous aurez besoin d'une résolution supérieure ou d'un montage multi-plans, faites passer le plan à un modèle vidéo plus lourd pour la finition.