xAI

Grok Imagine

xAI 图像 + 视频生成器——快速、风格化、为快速迭代打造。

无需订阅
积分永不过期
了解更多

一次充值积分,通用所有模型,想用再用。 · 按需充值,不存在月度清零。

Powered by xAI's API on ZOOOP

核心能力

端到端快速生成

Grok Imagine 出图像和视频明显快于竞品旗舰——快到可以按对话节奏迭代,而不是每次生成都等几分钟。

图像 + 视频同模型

同一套 prompt 理解既出静态图也出短视频。图生视频支持 1-15 秒,带原生同步音频。

多图编辑(最多 3 源)

一次请求最多传 3 张源图,组合主体、迁移风格、合成场景。用文本描述编辑——无需蒙版。

原生同步音频

图生视频自带同步音频——对白、环境音、音效在同一次推理里生成。无需单独的运动模型、TTS 或 Foley 步骤。

使用场景

快速起稿 + 迭代

快速起稿 + 迭代

快速生成让 Grok Imagine 成为定稿前快速概念迭代的工具,选定方向后再用更慢的旗舰走终稿。

风格化插画

风格化插画

写实到风格化插画都在同一 prompt 理解下——还没确定方向时的艺术探索利器。

图生视频动效

图生视频动效

一次推理把静态图动起来——1-15 秒、自带同步音频,无需单独的运动或音频模型。

多源合成

多源合成

单次请求最多 3 张源图——叠加主体、迁移风格、合成场景元素——无蒙版无图层操作。

社媒原生短片

社媒原生短片

快速生成 + 原生音频 + 图生视频让 Grok Imagine 成为 TikTok / Reels 类社媒内容理想选择,迭代速度比 4K 收尾更重要。

品牌快速迭代

品牌快速迭代

快速迭代试很多变种、敲定品牌方向——Grok 的出图速度让你在更重模型出一张的时间里就能对比多个候选。

如何选对模型

按场景挑图像 / 视频模型。积分在 ZOOOP 上所有模型通用。

快速迭代、风格化插画Grok Imagine
事实准确 + 多语种文字Nano Banana Pro
写实人像 + 精确色彩Flux 2 Pro
性价比、生成 + 编辑一体Seedream 5.0 Lite
海报原生排版GPT Image 2

如何使用

01

从本页或图像/视频生成器选中 Grok Imagine。

02

写 prompt——Grok 用同一个解析器处理写实和风格化。

03

图生视频时设定时长(1-15 秒),原生音频会自动生成。

04

生成,然后调 prompt 再生成——出图快,可按对话节奏迭代。

深入了解

Grok Imagine 擅长什么——又不擅长什么

Grok Imagine 是在速度上胜出的模型。从 prompt 到含音频成片,它比竞品旗舰明显更快。对任何在做创意方向迭代的人,这件事根本性地改变了工作流。你生成、看、调 prompt、再生成——按对话节奏,而不是每次都等几分钟。等慢旗舰出第一次,Grok 已经出了好几个变种、方向已经收窄了。

模型还用同一个 prompt 解析器统一图像和视频。你不在前端选"图像模型"或"视频模型"——你描述你要什么,Grok 自己决定出静帧还是给它动起来。图生视频支持 1 到 15 秒,带原生同步音频(对白、环境音、音效)——无单独运动模型、无单独 TTS、无单独 Foley 步。对社媒原生短视频(交付物是一段 10 秒带声循环),Grok 把流水线从"三个模型 + 一道剪辑"压成"一个模型、一条 prompt"。

多图编辑支持单请求最多 3 张源图——组合主体、迁移风格、合成场景——全在一句文本指令里,无蒙版无图层操作。相对支持 10+ 张参考图的模型,单次约束更少,但对快速探索这通常是特性而不是缺陷。

它弱在哪:顶端分辨率上的写实人像保真是 Flux 2 Pro 的赛道——Grok 快但每像素精修差一档。真实世界引用的事实准确(真实地点、产品、品牌)是 Nano Banana Pro 的地盘。多语种文字渲染偏好 Nano Banana Pro。带硬切的多镜头视频分镜偏好 Kling V3。Grok Imagine 的甜点区是迭代速度、风格化、社媒原生短内容。

一个合理的心理模型:起稿、迭代、快速短内容,默认选 Grok Imagine。方向锁定后,把胜出的 prompt 交给更重档的模型走终稿。

常见问题

Grok Imagine 到底有多快?+

比竞品旗舰明显更快——快到可以按对话节奏迭代 prompt,而不是每次生成都等几分钟。速度就是重点:生成、看、调、再生成,形成紧凑循环。

Grok Imagine 图像视频都能做吗?+

都能,在同一模型同一 prompt 理解下。静态图、图生视频动效、文生视频都支持。视频输出自带原生同步音频。

Grok Imagine 的视频带音频吗?+

带——图生视频和文生视频输出都自带原生同步音频(对白、环境音、音效),在同一次推理里生成。无需单独的 TTS 或 Foley 步骤。

Grok Imagine 和 Nano Banana Pro、Flux 2 Pro 怎么比?+

Grok Imagine 在生成速度和快速迭代上赢。Nano Banana Pro 在事实准确和多语种文字上赢。Flux 2 Pro 在写实人像和精确色彩上赢。起稿和迭代用 Grok,定稿后切到更重的模型。

Grok Imagine 支持多图编辑吗?+

支持——单请求最多 3 张源图。组合主体、迁移风格、合成场景,全在一句文本指令里,无需蒙版或图层。参考位比 10 图模型少,但对快速探索这通常是优点。

更多模型