xAI

Grok Imagine V1.5

Le spécialiste image-vers-vidéo d'xAI — transformez une image fixe en un clip animé avec audio synchronisé natif.

Pas d'abonnement
Les crédits n'expirent jamais
En savoir plus

Payez une fois pour les crédits - utilisez-les sur tous les modèles de ZOOOP. · Rechargez quand vous en avez besoin, pas de brûlure mensuelle.

Powered by xAI's API on ZOOOP

Caractéristiques clés

Image-vers-vidéo le mieux classé

Grok Imagine V1.5 a atteint la 1ère place du classement public Image-to-Video Arena en preview — un net progrès par rapport à 1.0 en qualité de mouvement et en fidélité à transformer une image fixe en un plan animé.

Audio synchronisé natif

Chaque clip est livré avec de l'audio synchronisé généré dans le même passage — dialogue, son d'ambiance et effets, avec synchronisation labiale sur les personnages parlants. Pas de modèle de mouvement, TTS ou étape Foley séparé.

Meilleure cohérence temporelle

L'amélioration phare de 1.5 est la stabilité — sujets, visages et éléments de scène restent cohérents sur tout le clip au lieu de dériver ou se déformer d'une image à l'autre.

Durée flexible jusqu'à 15s

Rendez des clips de 1 à 15 secondes en 720p ou 480p, avec un turnaround rapide — assez courts pour itérer, assez longs pour porter un rythme complet avec du son.

Cas d'utilisation

Donnez vie à une photo fixe

Donnez vie à une photo fixe

Déposez une image fixe — un paysage lacustre paisible, par exemple — et Grok Imagine V1.5 ajoute de l'eau ondulante, des branches qui se balancent et des nuages dérivants avec de l'audio ambiance en un seul passage, sans animation manuelle.

Produit en mouvement

Produit en mouvement

Transformez une photo de produit en une courte révélation ou une boucle de rotation avec du son d'ambiance — prêt pour les fiches e-commerce et les publications sociales sans tournage.

Courts verticaux natifs sociaux

Courts verticaux natifs sociaux

La conversion rapide image-vers-vidéo plus l'audio natif font de V1.5 l'outil idéal pour les courts style TikTok / Reels — animez un seul photogramme en un clip vertical sonore en une étape.

Art conceptuel vers previz animé

Art conceptuel vers previz animé

Animez un concept de scène — une rue cyberpunk au néon, par exemple — pour voir comment le rythme se lit en mouvement avant d'engager un modèle plus lourd pour le rendu final.

Choisissez le bon modèle

Choisissez le bon modèle vidéo pour le travail. Vos crédits fonctionnent partout sur ZOOOP.

Animer une image + audio synchronisé natifGrok Imagine V1.5
Image + vidéo stylisés rapides, un seul modèleGrok Imagine
Mouvement cinématographique 1080p + multi-plansKling V3
Vidéo cinématographique de qualité maximaleSeedance V2.0
Physique réaliste + dialogue parléVeo 3.1
Image-vers-vidéo le plus rapide / économiqueWan V2.6 Flash

Comment utiliser

01

Ouvrez Grok Imagine V1.5 depuis cette page ou sélectionnez-le dans le Générateur de Vidéo (Image-vers-Vidéo).

02

Uploadez l'image de départ — elle deviendra la première image du clip.

03

Écrivez le prompt décrivant le mouvement, puis réglez la résolution (720p ou 480p) et la durée (1–15 secondes).

04

Générez — l'audio synchronisé natif est livré avec le clip.

Plongée profonde

Ce que Grok Imagine V1.5 fait bien — et ce qu'il ne fait pas

Grok Imagine V1.5 fait une chose et la fait bien : il anime une image fixe en un court clip avec du son. Vous lui donnez une image de départ et un prompt décrivant le mouvement, et il génère le mouvement — plus de l'audio synchronisé natif — en un seul passage. En preview il a atteint la 1ère place du classement public Image-to-Video Arena, un net progrès par rapport à 1.0 tant en qualité de mouvement que dans la fidélité avec laquelle votre image de départ se prolonge dans le plan animé.

La capacité phare est l'audio synchronisé natif. Chaque clip revient avec du dialogue, du son d'ambiance et des effets générés avec la vidéo, avec synchronisation labiale sur les personnages parlants. Pour un court social sonore ou un clip de tête parlante, cela compresse ce qui est normalement un pipeline à trois outils — modèle de mouvement, puis TTS, puis Foley — en un seul prompt. La deuxième grande avancée de 1.5 est la cohérence temporelle : visages, sujets et éléments de scène restent cohérents sur tout le clip au lieu de dériver ou se déformer d'une image à l'autre, ce qui était la faiblesse la plus visible de la version précédente.

Les clips durent de 1 à 15 secondes en 720p ou 480p avec un turnaround rapide, donc c'est agile pour essayer une idée de mouvement, la voir avec du son et regénérer. Ce court, sonore, est exactement son point fort.

Où c'est plus faible : V1.5 est uniquement image-vers-vidéo — il ne génère pas d'images fixes ni n'exécute de texte-vers-vidéo, donc si vous avez besoin d'une image à animer en premier lieu, générez-la avec le Grok Imagine original ou un autre modèle d'image et passez-la. La résolution plafonne à 720p, ce n'est pas un modèle de finition 1080p ou 4K — pour la livraison haute résolution, Kling V3 ou Seedance V2.0 sont de meilleures cibles. Et il anime un seul plan, pas une séquence multi-coupes ; pour la vidéo story-boardée avec des coupes dures, passez à Kling V3.

Un modèle mental raisonnable : recourez à Grok Imagine V1.5 dès que la tâche est « faire bouger cette image, avec du son » — personnages parlants, mouvement de produit, courts natifs sociaux, previz rapide. Quand vous aurez besoin d'une résolution supérieure ou d'un montage multi-plans, faites passer le plan à un modèle vidéo plus lourd pour la finition.

Questions fréquemment posées

Que fait Grok Imagine V1.5 ?+

C'est un modèle image-vers-vidéo : vous lui donnez une image de départ et un prompt, et il anime cette image fixe en un court clip avec audio synchronisé natif. Sur ZOOOP il se concentre purement sur l'image-vers-vidéo — il ne génère pas d'images fixes ni n'exécute de texte-vers-vidéo seul.

Les clips de Grok Imagine V1.5 incluent-ils de l'audio ?+

Oui — chaque clip est livré avec de l'audio synchronisé natif (dialogue, son d'ambiance, effets) généré dans le même passage, avec synchronisation labiale sur les personnages parlants. Pas besoin de TTS ou d'étape Foley séparée.

Quelle résolution et durée supporte-t-il ?+

La sortie est en 720p ou 480p, et les clips durent de 1 à 15 secondes (5 secondes par défaut). Il est conçu pour les courts sonores, pas pour les formats longs ou la livraison en 4K.

Quelle est la différence entre V1.5 et le Grok Imagine original ?+

V1.5 est la mise à niveau spécialisée image-vers-vidéo — il a atteint la 1ère place de l'Image-to-Video Arena en preview, avec une meilleure cohérence temporelle et audio que 1.0. Le Grok Imagine original est le généraliste plus large image + vidéo (images fixes, texte-vers-vidéo et édition). Utilisez V1.5 quand votre objectif est d'animer une image spécifique ; utilisez l'original quand vous voulez une génération rapide d'images ou un workflow image et vidéo en un seul modèle.

Grok Imagine V1.5 est-il rentable ?+

Pour les courts sonores c'est un excellent rapport — l'audio natif est généré dans le même passage, donc vous sautez les étapes séparées de voix, musique et effets sonores qu'un pipeline typique nécessite. Pour la finition en 1080p ou les séquences multi-plans, un modèle vidéo plus lourd est un meilleur investissement.

Plus de modèles