
Grok Imagine V1.5 上線 ZOOOP:xAI 圖生影片這次把畫面穩定性補上了
Grok Imagine V1.5 現在能在 ZOOOP 上直接用了。這是 xAI 在圖生影片方向上的最新一版。相比 1.0,它最實在的進步是畫面穩了、運動也更自然——預覽階段它還在公開的圖生影片競技場上登頂過。下面把這次上線的看點,還有怎麼開始用,講清楚。
這次上線:Grok Imagine V1.5 是什麼
先說定位。Grok Imagine V1.5 是一個專門做圖生影片的模型——你給它一張靜態圖當起點,再寫一句描述運動的話,它就把這張圖動成一段短片。它不出靜態圖,也不做文生影片,就專注「讓一張圖動起來」這一件事。在 ZOOOP 的 AI 影片生成 裡就能選到它。
它和上一代 Grok Imagine 出自同一條線,能力底子是接著來的;這次 V1.5 真正補上的,是上一版最讓人頭疼的幾個短板。
看點一:畫面終於穩住了
上一版 Grok Imagine 最被人吐槽的就是穩定性——人臉會變、主體會飄、場景元素一格一個樣。V1.5 的核心改進正是這一點:在整段影片裡,主體、面部和場景元素能保持一致,不再逐格漂移或扭曲。
對圖生影片來說,這件事其實比「畫面好看」更難,也更關鍵。一段會變形的影片,再精緻也沒法用;能從頭穩到尾,才談得上拿去用。Grok Imagine V1.5 在這上面的進步,是肉眼能看出來的。
看點二:運動更自然,還登頂了競技場
穩之外,這版的運動品質也更好——單張靜圖怎麼忠實地延續成一個動起來的鏡頭,比 1.0 處理得更到位,畫面沒那麼「假」。
客觀說一句:Grok Imagine V1.5 在預覽階段,於公開的 Image-to-Video Arena 圖生影片競技場上拿到過第一。榜單只是個參考,不代表它在每個場景都最強,但至少說明這版在「把一張靜圖變成動態鏡頭」這件事上,站到了第一梯隊。
聲音依然是一次生成出來
要補一句:帶聲音這件事不是 V1.5 才有的——從上一代起,Grok Imagine 生成的影片就自帶和畫面一起出來的聲音,對白、環境音、音效都有,說話角色還會對口型。V1.5 把它一併保留了下來。
好處還是實在的:做一段有聲短片,過去常要三步走——先生成畫面,再用配音工具補聲音,最後單獨處理音效。在這裡一句提示詞就能拿到帶聲成片,省掉的不只是時間,還有把幾個工具的輸出對齊的麻煩。
規格速覽:能做什麼,不能做什麼
幾個實用參數:
- 輸出解析度 720p 或 480p
- 時長 1 到 15 秒,預設 5 秒
- 只做圖生影片,需要先有一張起始圖
適合的場景很清楚:讓風景、產品圖動起來配上環境音;做社群直式短片;先把一張概念圖動起來,看看節奏對不對。
邊界也得講清楚。Grok Imagine V1.5 解析度上限是 720p,不是 1080p / 4K 的收尾模型;它動的是單個鏡頭,不做多鏡頭切換;也不會憑空幫你出圖——手上還沒有可動的圖,可以先用 AI 圖像生成 出一張再餵進來。要更高解析度或多鏡頭剪輯,交給 Kling V3、Seedance V2.0、Veo 3.1…… 這類更重的影片模型更合適。
對創作者意味著什麼
把帳算清楚就明白了。過去做帶聲短片要在生成畫面、配音、加音效之間來回切,還得擔心聲畫對不上,更頭疼的是畫面一變形整條就廢了。Grok Imagine V1.5 把鏈條壓短、又把穩定性補上,對要快速產出大量帶聲短片的人,省下來的是實打實的時間。
它當然不是萬能的。它在圖生影片裡的甜點區就是「讓這張圖動起來,還穩、還帶聲」——說話頭像、產品動效、社群短片、快速預演。真到要高解析度終稿或複雜剪輯時,再把鏡頭交給別的模型。這種分工反而讓 Grok Imagine V1.5 在自己擅長的那段更好用。
在 ZOOOP 上怎麼開始
在 ZOOOP 的 AI 影片生成裡選 Grok Imagine V1.5,上傳一張起始圖(它會成為影片首格),寫一句描述運動的提示詞,設好解析度和時長,點生成就行。
ZOOOP 上所有模型共用同一套點數,點數還永不過期,所以你大可以拿 Grok Imagine V1.5 和別的影片模型來回試,不用怕選錯了浪費。想先了解參數和範例,可以看 Grok Imagine V1.5 模型頁。