Grok Imagine V1.5 上線 ZOOOP：xAI 圖生影片這次把畫面穩定性補上了

Grok Imagine V1.5 現在能在 ZOOOP 上直接用了。這是 xAI 在圖生影片方向上的最新一版。相比 1.0，它最實在的進步是畫面穩了、運動也更自然——預覽階段它還在公開的圖生影片競技場上登頂過。下面把這次上線的看點，還有怎麼開始用，講清楚。

這次上線：Grok Imagine V1.5 是什麼

先說定位。Grok Imagine V1.5 是一個專門做圖生影片的模型——你給它一張靜態圖當起點，再寫一句描述運動的話，它就把這張圖動成一段短片。它不出靜態圖，也不做文生影片，就專注「讓一張圖動起來」這一件事。在 ZOOOP 的 AI 影片生成裡就能選到它。

它和上一代 Grok Imagine 出自同一條線，能力底子是接著來的；這次 V1.5 真正補上的，是上一版最讓人頭疼的幾個短板。

看點一：畫面終於穩住了

上一版 Grok Imagine 最被人吐槽的就是穩定性——人臉會變、主體會飄、場景元素一格一個樣。V1.5 的核心改進正是這一點：在整段影片裡，主體、面部和場景元素能保持一致，不再逐格漂移或扭曲。

對圖生影片來說，這件事其實比「畫面好看」更難，也更關鍵。一段會變形的影片，再精緻也沒法用；能從頭穩到尾，才談得上拿去用。Grok Imagine V1.5 在這上面的進步，是肉眼能看出來的。

看點二：運動更自然，還登頂了競技場

穩之外，這版的運動品質也更好——單張靜圖怎麼忠實地延續成一個動起來的鏡頭，比 1.0 處理得更到位，畫面沒那麼「假」。

客觀說一句：Grok Imagine V1.5 在預覽階段，於公開的 Image-to-Video Arena 圖生影片競技場上拿到過第一。榜單只是個參考，不代表它在每個場景都最強，但至少說明這版在「把一張靜圖變成動態鏡頭」這件事上，站到了第一梯隊。

聲音依然是一次生成出來

要補一句：帶聲音這件事不是 V1.5 才有的——從上一代起，Grok Imagine 生成的影片就自帶和畫面一起出來的聲音，對白、環境音、音效都有，說話角色還會對口型。V1.5 把它一併保留了下來。

好處還是實在的：做一段有聲短片，過去常要三步走——先生成畫面，再用配音工具補聲音，最後單獨處理音效。在這裡一句提示詞就能拿到帶聲成片，省掉的不只是時間，還有把幾個工具的輸出對齊的麻煩。

規格速覽：能做什麼，不能做什麼

幾個實用參數：

輸出解析度 720p 或 480p
時長 1 到 15 秒，預設 5 秒
只做圖生影片，需要先有一張起始圖

適合的場景很清楚：讓風景、產品圖動起來配上環境音；做社群直式短片；先把一張概念圖動起來，看看節奏對不對。

邊界也得講清楚。Grok Imagine V1.5 解析度上限是 720p，不是 1080p / 4K 的收尾模型；它動的是單個鏡頭，不做多鏡頭切換；也不會憑空幫你出圖——手上還沒有可動的圖，可以先用 AI 圖像生成出一張再餵進來。要更高解析度或多鏡頭剪輯，交給 Kling V3、Seedance V2.0、Veo 3.1…… 這類更重的影片模型更合適。

對創作者意味著什麼

把帳算清楚就明白了。過去做帶聲短片要在生成畫面、配音、加音效之間來回切，還得擔心聲畫對不上，更頭疼的是畫面一變形整條就廢了。Grok Imagine V1.5 把鏈條壓短、又把穩定性補上，對要快速產出大量帶聲短片的人，省下來的是實打實的時間。

它當然不是萬能的。它在圖生影片裡的甜點區就是「讓這張圖動起來，還穩、還帶聲」——說話頭像、產品動效、社群短片、快速預演。真到要高解析度終稿或複雜剪輯時，再把鏡頭交給別的模型。這種分工反而讓 Grok Imagine V1.5 在自己擅長的那段更好用。

在 ZOOOP 上怎麼開始

在 ZOOOP 的 AI 影片生成裡選 Grok Imagine V1.5，上傳一張起始圖（它會成為影片首格），寫一句描述運動的提示詞，設好解析度和時長，點生成就行。

ZOOOP 上所有模型共用同一套點數，點數還永不過期，所以你大可以拿 Grok Imagine V1.5 和別的影片模型來回試，不用怕選錯了浪費。想先了解參數和範例，可以看 Grok Imagine V1.5 模型頁。