Grok Imagine V1.5 是做什麼的?

它是圖生影片模型:給一張起始圖和一段 prompt,它就把這張靜圖動成帶原生同步音訊的短片。在 ZOOOP 上它專做圖生影片——不單獨出靜態圖,也不自己跑文生影片。

Grok Imagine V1.5 的影片帶音訊嗎?

帶——每段影片都在同一次推論裡附帶原生同步音訊(對白、環境音、音效),說話角色還帶對嘴。無需單獨的 TTS 或 Foley 步驟。

支援什麼解析度和時長?

輸出 720p 或 480p,時長 1 到 15 秒(預設 5 秒)。它是為帶聲短鏡頭打造的,不面向長影片或 4K 交付。

V1.5 和原版 Grok Imagine 有什麼區別?

V1.5 是專精的圖生影片升級——預覽階段在 Image-to-Video Arena 拿第一,時間一致性和音訊都比 1.0 更好。原版 Grok Imagine 是更全能的圖像 + 影片模型(靜態圖、文生影片、編輯都做)。要把某張靜圖動起來用 V1.5;要快速出圖或一個模型走圖像加影片流程,用原版。

Grok Imagine V1.5 划算嗎?

對帶聲短片很划算——原生音訊在同一次推論裡生成,省掉了普通流程裡單獨的配音、配樂、音效步驟。但要 1080p 收尾或多鏡頭序列,更重的影片模型才是更值的花法。

ZOOOP 上的 Grok Imagine V1.5 — xAI 自帶原生音訊的圖生影片

Grok Imagine V1.5 擅長什麼——又不擅長什麼

Grok Imagine V1.5 只做一件事,而且做得好:把一張靜態圖動成帶聲短片。你給它一張起始格和一段描述運動的 prompt,它在一次推論裡生成運動——外加原生同步音訊。預覽階段它在 Image-to-Video Arena 公開榜拿下第一,相比 1.0,在運動品質和「起始圖如何忠實地延續進動態鏡頭」上都明顯更強。

最突出的能力是原生同步音訊。每段影片回來時都帶著與畫面一起生成的對白、環境音和音效,說話角色還有對嘴。對一段帶聲社群短片或說話頭像影片,這把通常要三個工具的流程——運動模型、再 TTS、再 Foley——壓成一條 prompt。1.5 的第二個大提升是時間一致性:面部、主體、場景元素在整段影片裡保持一致,不再逐格飄移或扭曲——而這正是上一版最明顯的短板。

成片 1 到 15 秒、720p 或 480p,出片快,所以試一個運動想法、帶聲看一眼、再重出都很快。這種短的、帶聲的鏡頭正是它的甜蜜點。

它弱在哪:V1.5 只做圖生影片——不出靜態圖、也不跑文生影片,所以如果你連一張可動的圖都還沒有,先用原版 Grok Imagine 或別的圖像模型出圖再餵進來。解析度上限 720p,不是 1080p 或 4K 的收尾模型——要高解析度交付,Kling V3 或 Seedance V2.0 是更對的目標。而且它動的是單一鏡頭,不是多鏡頭切換序列;要帶硬切的分鏡影片,換 Kling V3。

一個合理的心智模型:只要任務是「讓這張圖動起來,帶聲」,就選 Grok Imagine V1.5——說話角色、產品動效、社群原生短片、快速預演。等需要更高解析度或多鏡頭剪輯時,把這個鏡頭交給更重的影片模型走定稿。

Grok Imagine V1.5

Grok Imagine V1.5

核心能力

頂尖圖生影片

原生同步音訊

更強時間一致性

時長靈活,最長 15 秒

使用場景

讓靜態圖動起來

產品圖動效

社群原生直式短片

概念圖轉動態預演

如何選對模型

如何使用

深入瞭解

Grok Imagine V1.5 擅長什麼——又不擅長什麼

常見問題

更多模型

Grok Imagine V1.5