
讓靜態圖動起來
傳一張靜圖——比如一張安靜的湖畔風景——Grok Imagine V1.5 一次推論就給它加上粼粼水波、搖曳枝葉和流動雲層並配環境音,無需手 K 關鍵影格。
xAI 圖生影片專精模型——把一張靜態圖變成帶原生同步音訊的動態短片。
一次充值積分,通用所有模型,想用再用。 · 按需充值,不存在月度清零。
Powered by xAI's API on ZOOOP
Grok Imagine V1.5 在 Image-to-Video Arena 公開榜預覽階段拿下第一——相比 1.0,在運動品質和「單張靜圖如何忠實地變成動態鏡頭」上明顯進步。
每段影片都在同一次推論裡附帶同步音訊——對白、環境音、音效,說話角色還帶對嘴。無需單獨的運動模型、TTS 或 Foley 步驟。
1.5 的核心升級是穩定性——主體、面部、場景元素在整段影片裡保持一致,不再逐格飄移或扭曲。
720p 或 480p、1 到 15 秒成片,出片快——短到可以反覆迭代,又長到能用聲音撐起一個完整節拍。

傳一張靜圖——比如一張安靜的湖畔風景——Grok Imagine V1.5 一次推論就給它加上粼粼水波、搖曳枝葉和流動雲層並配環境音,無需手 K 關鍵影格。

把一張產品靜圖變成短展示或旋轉循環並配環境音——無需實拍,直接用於電商商品頁和社群。

快速圖生影片 + 原生音訊,讓 V1.5 成為 TikTok / Reels 類短片的理想選擇——一張圖一步變成帶聲直式短片。

把一張場景概念圖——比如霓虹閃爍的賽博龐克街道——動起來,在交給更重的模型出定稿前先看看這個節拍動起來讀感如何。
按場景挑影片模型。點數在 ZOOOP 上所有模型通用。
從本頁或影片生成器(圖生影片)選中 Grok Imagine V1.5。
上傳起始圖——它會成為影片的首格。
寫描述運動的 prompt,然後設定解析度(720p 或 480p)和時長(1–15 秒)。
生成——原生同步音訊隨片一起出。
Grok Imagine V1.5 只做一件事,而且做得好:把一張靜態圖動成帶聲短片。你給它一張起始格和一段描述運動的 prompt,它在一次推論裡生成運動——外加原生同步音訊。預覽階段它在 Image-to-Video Arena 公開榜拿下第一,相比 1.0,在運動品質和「起始圖如何忠實地延續進動態鏡頭」上都明顯更強。
最突出的能力是原生同步音訊。每段影片回來時都帶著與畫面一起生成的對白、環境音和音效,說話角色還有對嘴。對一段帶聲社群短片或說話頭像影片,這把通常要三個工具的流程——運動模型、再 TTS、再 Foley——壓成一條 prompt。1.5 的第二個大提升是時間一致性:面部、主體、場景元素在整段影片裡保持一致,不再逐格飄移或扭曲——而這正是上一版最明顯的短板。
成片 1 到 15 秒、720p 或 480p,出片快,所以試一個運動想法、帶聲看一眼、再重出都很快。這種短的、帶聲的鏡頭正是它的甜蜜點。
它弱在哪:V1.5 只做圖生影片——不出靜態圖、也不跑文生影片,所以如果你連一張可動的圖都還沒有,先用原版 Grok Imagine 或別的圖像模型出圖再餵進來。解析度上限 720p,不是 1080p 或 4K 的收尾模型——要高解析度交付,Kling V3 或 Seedance V2.0 是更對的目標。而且它動的是單一鏡頭,不是多鏡頭切換序列;要帶硬切的分鏡影片,換 Kling V3。
一個合理的心智模型:只要任務是「讓這張圖動起來,帶聲」,就選 Grok Imagine V1.5——說話角色、產品動效、社群原生短片、快速預演。等需要更高解析度或多鏡頭剪輯時,把這個鏡頭交給更重的影片模型走定稿。
它是圖生影片模型:給一張起始圖和一段 prompt,它就把這張靜圖動成帶原生同步音訊的短片。在 ZOOOP 上它專做圖生影片——不單獨出靜態圖,也不自己跑文生影片。
帶——每段影片都在同一次推論裡附帶原生同步音訊(對白、環境音、音效),說話角色還帶對嘴。無需單獨的 TTS 或 Foley 步驟。
輸出 720p 或 480p,時長 1 到 15 秒(預設 5 秒)。它是為帶聲短鏡頭打造的,不面向長影片或 4K 交付。
V1.5 是專精的圖生影片升級——預覽階段在 Image-to-Video Arena 拿第一,時間一致性和音訊都比 1.0 更好。原版 Grok Imagine 是更全能的圖像 + 影片模型(靜態圖、文生影片、編輯都做)。要把某張靜圖動起來用 V1.5;要快速出圖或一個模型走圖像加影片流程,用原版。
對帶聲短片很划算——原生音訊在同一次推論裡生成,省掉了普通流程裡單獨的配音、配樂、音效步驟。但要 1080p 收尾或多鏡頭序列,更重的影片模型才是更值的花法。
首幀*
Prompt*
視頻分辨率*
時長*