Grok Imagine V1.5 是做什么的?

它是图生视频模型:给一张起始图和一段 prompt,它就把这张静图动成带原生同步音频的短片。在 ZOOOP 上它专做图生视频——不单独出静态图,也不自己跑文生视频。

Grok Imagine V1.5 的视频带音频吗?

带——每段视频都在同一次推理里附带原生同步音频(对白、环境音、音效),说话角色还带对口型。无需单独的 TTS 或 Foley 步骤。

支持什么分辨率和时长?

输出 720p 或 480p,时长 1 到 15 秒(默认 5 秒)。它是为带声短镜头打造的,不面向长视频或 4K 交付。

V1.5 和原版 Grok Imagine 有什么区别?

V1.5 是专精的图生视频升级——预览阶段在 Image-to-Video Arena 拿第一,时间一致性和音频都比 1.0 更好。原版 Grok Imagine 是更全能的图像 + 视频模型(静态图、文生视频、编辑都做)。要把某张静图动起来用 V1.5;要快速出图或一个模型走图像加视频流程,用原版。

Grok Imagine V1.5 划算吗?

对带声短片很划算——原生音频在同一次推理里生成,省掉了普通流水线里单独的配音、配乐、音效步骤。但要 1080p 收尾或多镜头序列,更重的视频模型才是更值的花法。

ZOOOP 上的 Grok Imagine V1.5 — xAI 自带原生音频的图生视频

Grok Imagine V1.5 擅长什么——又不擅长什么

Grok Imagine V1.5 只做一件事,而且做得好:把一张静态图动成带声短片。你给它一张起始帧和一段描述运动的 prompt,它在一次推理里生成运动——外加原生同步音频。预览阶段它在 Image-to-Video Arena 公开榜拿下第一,相比 1.0,在运动质量和「起始图如何忠实地延续进动态镜头」上都明显更强。

最突出的能力是原生同步音频。每段视频回来时都带着与画面一起生成的对白、环境音和音效,说话角色还有对口型。对一段带声社媒短片或说话头像视频,这把通常要三个工具的流水线——运动模型、再 TTS、再 Foley——压成一条 prompt。1.5 的第二个大提升是时间一致性:面部、主体、场景元素在整段视频里保持一致,不再逐帧漂移或扭曲——而这正是上一版最明显的短板。

成片 1 到 15 秒、720p 或 480p,出片快,所以试一个运动想法、带声看一眼、再重出都很快。这种短的、带声的镜头正是它的甜点区。

它弱在哪:V1.5 只做图生视频——不出静态图、也不跑文生视频,所以如果你连一张可动的图都还没有,先用原版 Grok Imagine 或别的图像模型出图再喂进来。分辨率上限 720p,不是 1080p 或 4K 的收尾模型——要高分辨率交付,Kling V3 或 Seedance V2.0 是更对的目标。而且它动的是单个镜头,不是多镜头切换序列;要带硬切的分镜视频,换 Kling V3。

一个合理的心理模型:只要任务是「让这张图动起来,带声」,就选 Grok Imagine V1.5——说话角色、产品动效、社媒原生短片、快速预演。等需要更高分辨率或多镜头剪辑时,把这个镜头交给更重的视频模型走终稿。

Grok Imagine V1.5

Grok Imagine V1.5

核心能力

顶尖图生视频

原生同步音频

更强时间一致性

时长灵活,最长 15 秒

使用场景

让静态图动起来

产品图动效

社媒原生竖屏短片

概念图转动态预演

如何选对模型

如何使用

深入了解

Grok Imagine V1.5 擅长什么——又不擅长什么

常见问题

更多模型

Grok Imagine V1.5