
Grok Imagine V1.5 上线 ZOOOP:xAI 图生视频这次把画面稳定性补上了
Grok Imagine V1.5 现在能在 ZOOOP 上直接用了。这是 xAI 在图生视频方向上的最新一版。相比 1.0,它最实在的进步是画面稳了、运动也更自然——预览阶段它还在公开的图生视频竞技场上登顶过。下面把这次上线的看点,还有怎么开始用,讲清楚。
这次上线:Grok Imagine V1.5 是什么
先说定位。Grok Imagine V1.5 是一个专门做图生视频的模型——你给它一张静态图当起点,再写一句描述运动的话,它就把这张图动成一段短片。它不出静态图,也不做文生视频,就专注「让一张图动起来」这一件事。在 ZOOOP 的 AI 视频生成 里就能选到它。
它和上一代 Grok Imagine 出自同一条线,能力底子是接着来的;这次 V1.5 真正补上的,是上一版最让人头疼的几个短板。
看点一:画面终于稳住了
上一版 Grok Imagine 最被人吐槽的就是稳定性——人脸会变、主体会飘、场景元素一帧一个样。V1.5 的核心改进正是这一点:在整段视频里,主体、面部和场景元素能保持一致,不再逐帧漂移或扭曲。
对图生视频来说,这件事其实比「画面好看」更难,也更关键。一段会变形的视频,再精致也没法用;能从头稳到尾,才谈得上拿去用。Grok Imagine V1.5 在这上面的进步,是肉眼能看出来的。
看点二:运动更自然,还登顶了竞技场
稳之外,这版的运动质量也更好——单张静图怎么忠实地延续成一个动起来的镜头,比 1.0 处理得更到位,画面没那么「假」。
客观说一句:Grok Imagine V1.5 在预览阶段,于公开的 Image-to-Video Arena 图生视频竞技场上拿到过第一。榜单只是个参考,不代表它在每个场景都最强,但至少说明这版在「把一张静图变成动态镜头」这件事上,站到了第一梯队。
声音依然是一次生成出来
要补一句:带声音这件事不是 V1.5 才有的——从上一代起,Grok Imagine 生成的视频就自带和画面一起出来的声音,对白、环境音、音效都有,说话角色还会对口型。V1.5 把它一并保留了下来。
好处还是实在的:做一段有声短片,过去常要三步走——先生成画面,再用配音工具补声音,最后单独处理音效。在这里一句提示词就能拿到带声成片,省掉的不只是时间,还有把几个工具的输出对齐的麻烦。
规格速览:能做什么,不能做什么
几个实用参数:
- 输出分辨率 720p 或 480p
- 时长 1 到 15 秒,默认 5 秒
- 只做图生视频,需要先有一张起始图
适合的场景很清楚:让风景、产品图动起来配上环境音;做社媒竖屏短片;先把一张概念图动起来,看看节奏对不对。
边界也得讲清楚。Grok Imagine V1.5 分辨率上限是 720p,不是 1080p / 4K 的收尾模型;它动的是单个镜头,不做多镜头切换;也不会凭空帮你出图——手上还没有可动的图,可以先用 AI 图像生成 出一张再喂进来。要更高分辨率或多镜头剪辑,交给 Kling V3、Seedance V2.0、Veo 3.1…… 这类更重的视频模型更合适。
对创作者意味着什么
把账算清楚就明白了。过去做带声短片要在生成画面、配音、加音效之间来回切,还得担心声画对不上,更头疼的是画面一变形整条就废了。Grok Imagine V1.5 把链条压短、又把稳定性补上,对要快速产出大量带声短片的人,省下来的是实打实的时间。
它当然不是万能的。它在图生视频里的甜点区就是「让这张图动起来,还稳、还带声」——说话头像、产品动效、社媒短片、快速预演。真到要高分辨率终稿或复杂剪辑时,再把镜头交给别的模型。这种分工反而让 Grok Imagine V1.5 在自己擅长的那段更好用。
在 ZOOOP 上怎么开始
在 ZOOOP 的 AI 视频生成里选 Grok Imagine V1.5,上传一张起始图(它会成为视频首帧),写一句描述运动的提示词,设好分辨率和时长,点生成就行。
ZOOOP 上所有模型共用同一套积分,积分还永不过期,所以你大可以拿 Grok Imagine V1.5 和别的视频模型来回试,不用怕选错了浪费。想先了解参数和示例,可以看 Grok Imagine V1.5 模型页。