Grok Imagine V1.5 上线 ZOOOP：xAI 图生视频这次把画面稳定性补上了

Grok Imagine V1.5 现在能在 ZOOOP 上直接用了。这是 xAI 在图生视频方向上的最新一版。相比 1.0，它最实在的进步是画面稳了、运动也更自然——预览阶段它还在公开的图生视频竞技场上登顶过。下面把这次上线的看点，还有怎么开始用，讲清楚。

这次上线：Grok Imagine V1.5 是什么

先说定位。Grok Imagine V1.5 是一个专门做图生视频的模型——你给它一张静态图当起点，再写一句描述运动的话，它就把这张图动成一段短片。它不出静态图，也不做文生视频，就专注「让一张图动起来」这一件事。在 ZOOOP 的 AI 视频生成里就能选到它。

它和上一代 Grok Imagine 出自同一条线，能力底子是接着来的；这次 V1.5 真正补上的，是上一版最让人头疼的几个短板。

看点一：画面终于稳住了

上一版 Grok Imagine 最被人吐槽的就是稳定性——人脸会变、主体会飘、场景元素一帧一个样。V1.5 的核心改进正是这一点：在整段视频里，主体、面部和场景元素能保持一致，不再逐帧漂移或扭曲。

对图生视频来说，这件事其实比「画面好看」更难，也更关键。一段会变形的视频，再精致也没法用；能从头稳到尾，才谈得上拿去用。Grok Imagine V1.5 在这上面的进步，是肉眼能看出来的。

看点二：运动更自然，还登顶了竞技场

稳之外，这版的运动质量也更好——单张静图怎么忠实地延续成一个动起来的镜头，比 1.0 处理得更到位，画面没那么「假」。

客观说一句：Grok Imagine V1.5 在预览阶段，于公开的 Image-to-Video Arena 图生视频竞技场上拿到过第一。榜单只是个参考，不代表它在每个场景都最强，但至少说明这版在「把一张静图变成动态镜头」这件事上，站到了第一梯队。

声音依然是一次生成出来

要补一句：带声音这件事不是 V1.5 才有的——从上一代起，Grok Imagine 生成的视频就自带和画面一起出来的声音，对白、环境音、音效都有，说话角色还会对口型。V1.5 把它一并保留了下来。

好处还是实在的：做一段有声短片，过去常要三步走——先生成画面，再用配音工具补声音，最后单独处理音效。在这里一句提示词就能拿到带声成片，省掉的不只是时间，还有把几个工具的输出对齐的麻烦。

规格速览：能做什么，不能做什么

几个实用参数：

输出分辨率 720p 或 480p
时长 1 到 15 秒，默认 5 秒
只做图生视频，需要先有一张起始图

适合的场景很清楚：让风景、产品图动起来配上环境音；做社媒竖屏短片；先把一张概念图动起来，看看节奏对不对。

边界也得讲清楚。Grok Imagine V1.5 分辨率上限是 720p，不是 1080p / 4K 的收尾模型；它动的是单个镜头，不做多镜头切换；也不会凭空帮你出图——手上还没有可动的图，可以先用 AI 图像生成出一张再喂进来。要更高分辨率或多镜头剪辑，交给 Kling V3、Seedance V2.0、Veo 3.1…… 这类更重的视频模型更合适。

对创作者意味着什么

把账算清楚就明白了。过去做带声短片要在生成画面、配音、加音效之间来回切，还得担心声画对不上，更头疼的是画面一变形整条就废了。Grok Imagine V1.5 把链条压短、又把稳定性补上，对要快速产出大量带声短片的人，省下来的是实打实的时间。

它当然不是万能的。它在图生视频里的甜点区就是「让这张图动起来，还稳、还带声」——说话头像、产品动效、社媒短片、快速预演。真到要高分辨率终稿或复杂剪辑时，再把镜头交给别的模型。这种分工反而让 Grok Imagine V1.5 在自己擅长的那段更好用。

在 ZOOOP 上怎么开始

在 ZOOOP 的 AI 视频生成里选 Grok Imagine V1.5，上传一张起始图（它会成为视频首帧），写一句描述运动的提示词，设好分辨率和时长，点生成就行。

ZOOOP 上所有模型共用同一套积分，积分还永不过期，所以你大可以拿 Grok Imagine V1.5 和别的视频模型来回试，不用怕选错了浪费。想先了解参数和示例，可以看 Grok Imagine V1.5 模型页。