Grok Imagine V1.5 llega a ZOOOP: el imagen-a-vídeo de xAI por fin se mantiene estable

Grok Imagine V1.5 ya se puede usar en ZOOOP. Es la última versión del imagen-a-vídeo de xAI, y frente a la 1.0 las mejoras reales son sencillas: la imagen se mantiene íntegra y el movimiento luce más natural. En preview incluso lideró la clasificación pública de imagen-a-vídeo. Aquí va lo nuevo y cómo empezar.

Qué hace realmente Grok Imagine V1.5

Primero, el alcance. Grok Imagine V1.5 es un modelo dedicado al imagen-a-vídeo: le das una imagen fija como punto de partida, escribes una frase que describe el movimiento y anima ese fotograma en un clip corto. No genera imágenes fijas ni hace texto-a-vídeo; hace una sola cosa, «poner esta imagen en movimiento». Lo encontrarás en la generación de vídeo con IA de ZOOOP.

Viene de la misma línea que el Grok Imagine original, así que la base se conserva. Lo que la V1.5 corrige de verdad son las asperezas que más molestaban en la versión anterior.

Lo principal: la imagen por fin se sostiene

Al Grok Imagine original lo criticaban sobre todo por la estabilidad: las caras se desviaban, los sujetos se movían, los elementos de la escena cambiaban de un fotograma a otro. Eso es exactamente lo que mejora la V1.5: durante todo el clip, el sujeto, el rostro y la escena se mantienen coherentes, sin deformarse ni desplazarse.

Para el imagen-a-vídeo esto importa más que la mera belleza. Un clip que se deforma es inservible por nítido que sea cada fotograma; uno que se mantiene coherente de principio a fin sí se puede usar. El salto que da Grok Imagine V1.5 aquí se ve a simple vista.

Mejor movimiento, y un primer puesto

Más allá de la estabilidad, la calidad de movimiento también mejora: cómo una sola imagen fija se prolonga con fidelidad en una toma animada se resuelve de forma más convincente que en la 1.0, con menos ese aire «falso».

Seamos justos: Grok Imagine V1.5 alcanzó el primer puesto en el Image-to-Video Arena público durante su preview. Una clasificación es solo una señal, y no significa que gane en todos los escenarios, pero sí indica que esta versión está en la primera división a la hora de convertir una imagen fija en una toma animada.

El sonido sigue viniendo de serie

Una aclaración: el audio no es nuevo de la V1.5. Desde la generación anterior, Grok Imagine entrega vídeo con sonido generado junto a la imagen: diálogos, ambiente, efectos, con sincronización labial en los personajes que hablan. La nueva versión simplemente lo mantiene.

La ventaja sigue siendo real. Hacer un clip corto con sonido antes implicaba tres pasos: generar la imagen, añadir voz con otra herramienta y luego tratar los efectos por encima. Aquí una sola indicación te da un clip que ya trae sonido, lo que ahorra tiempo y el lío de cuadrar las salidas de varias herramientas.

Specs de un vistazo: qué puede y qué no

Algunos números prácticos:

Salida en 720p o 480p
De 1 a 15 segundos, 5 segundos por defecto
Solo imagen-a-vídeo: primero necesitas una imagen de partida

Su terreno ideal es claro: animar un paisaje o una toma de producto con sonido ambiente, hacer clips verticales para redes, o dar vida a una imagen-concepto solo para comprobar el ritmo.

También conviene decir los límites. Grok Imagine V1.5 se topa en 720p: no es un modelo de acabado en 1080p / 4K; anima una sola toma, no cortes multitoma; y no inventa una imagen de la nada. Si aún no tienes un fotograma que animar, crea uno con la generación de imágenes con IA y aliméntalo. Para mayor resolución o montaje multitoma, modelos de vídeo más pesados como Kling V3, Seedance V2.0, Veo 3.1… son el objetivo más adecuado.

Qué significa para los creadores

Haz cuentas y encaja. Hacer un clip corto con sonido obligaba a saltar entre generar metraje, doblaje y añadir efectos, y peor aún, una sola toma deformada podía arruinar la grabación entera. Grok Imagine V1.5 acorta esa cadena y refuerza la estabilidad, lo que es tiempo real ahorrado para quien produce muchos clips cortos con sonido.

No es un modelo para todo. Su punto fuerte es «poner esta imagen en movimiento, estable y con sonido»: bustos parlantes, movimiento de productos, clips para redes, previsualizaciones rápidas. Cuando necesites un final en alta resolución o edición compleja, pasa la toma a otro modelo. Ese reparto de tareas es parte de por qué Grok Imagine V1.5 resulta tan útil en su carril.

Cómo empezar en ZOOOP

En la generación de vídeo con IA de ZOOOP, elige Grok Imagine V1.5, sube una imagen de partida (será el primer fotograma), escribe una indicación que describa el movimiento, ajusta resolución y duración, y genera.

En ZOOOP todos los modelos comparten los mismos créditos, y los créditos nunca caducan, así que puedes saltar de un modelo a otro sin temer una elección desperdiciada. Para explorar primero los parámetros y ejemplos, mira la página del modelo Grok Imagine V1.5.