
角色驱动短片
用一张参考图给主角打标签,Seedance 会让脸型、发型、服装在每一个剪辑里都保持一致。
字节跳动旗舰多模态视频模型——文本、图像、音频、视频参考一站式输入。
一次充值积分,通用所有模型,想用再用。 · 按需充值,不存在月度清零。
Powered by ByteDance's API on ZOOOP
单一架构在同一次推理中产出同步的音视频——对白、环境音、节拍感知配乐,无需后期对轨。支持组合输入 3 段视频、9 张图、3 段音频。
把每张参考图标成具体的角色、道具或场景,Seedance 会在所有镜头里保持该资产视觉一致——同一个演员、同一身穿搭、同一张脸,跨镜不漂移。
上传一段视频作为动作参考,Seedance 会把它的舞蹈、运动、运镜方式迁移到你的角色图上,适合舞蹈片段、运动动作、风格化镜头运动。
原生输出最高 1080p,涵盖 16:9、9:16、4:3、3:4、21:9、1:1。一条电影宽幅母版加一条竖版社媒裁切可同一 prompt 一起出。

用一张参考图给主角打标签,Seedance 会让脸型、发型、服装在每一个剪辑里都保持一致。

喂入产品静帧 + 解说音轨,模型会让灯光、运动节奏、画外音的节拍全部对上。

节拍感知意味着画面会在重音处切。喂一段 15 秒音乐,模型会按节奏剪运镜。

用动作参考视频驱动静态分镜板,做出快过正式 previz 的运动调度。

一条 prompt 内串镜头 + 角色标签,免去其他模型逼着你做的"先生成单镜再手工拼"流程。

喂入舞蹈参考视频 + 音乐底,让你的角色图按节拍跳出参考动作。
Seedance 2.0 是原生音频 + 多模态参考下最强的全能选手——但每个模型都有自己的甜点区。你在 ZOOOP 的积分对所有模型通用。
从本页或在视频生成器中选中 Seedance 2.0。
上传参考图,给每张打标签(角色/道具/场景)。
写场景 prompt——Seedance 能读懂运镜、灯光、台词。
选时长(4-15 秒)、画幅、分辨率,点击生成。
Seedance 2.0 是这样一种模型:当一个场景所需要的远远超出一段文本 prompt 的时候你才会用它——当一个导演会把一摞情绪板、一张服装表、一段口音参考、一段武术替身视频塞给摄影师然后期待它们全部出现在同一个镜头里的时候。早一代 Seedance 1.5 Pro 能分开吃这些输入。Seedance 2.0 是一起吃:9 张参考图、3 段视频、3 段音频喂进同一个统一多模态架构,模型自己决定每一镜该怎么加权。
这个模型最出彩的能力是基于角色的资产打标签。把一张主角参考图标成 character_a、一张产品静帧标成 product_x、一段替身武术视频标成 motion_ref。Seedance 会让被标签的角色在所有剪辑里都保持视觉一致——同一张脸、同一头发型、同一身穿搭——同时让动作参考决定他们怎么动。这件事其他视频模型至今做不好:你生成一段 5 秒,主角的发色到中段就开始漂。Seedance 2.0 把"角色"这个变量锁死。
第二件它做得好的事是节拍感知音频同步。喂一段 15 秒音乐底,模型会让运镜、角色动作、画面切都落在重音上。这是原生能力,不是后处理。同一个模型还能生成带唇形同步的对白和环境音(脚步声、室内底噪、风雨声),不用再走一次单独的 TTS。截至 2026 年 3 月,Seedance 2.0 在公开榜 text-to-video 拿到 Elo 1,269、image-to-video 拿到 Elo 1,351——两个榜单都是第一,领先 Kling 3.0、Veo 3 和 Runway Gen-4.5。
它弱在哪:能力上几乎没有短板。Seedance 2.0 是当前旗舰里最强的全能选手——公开 Elo 榜双榜第一、原生 1080p、原生音频、最深的多模态参考集,要写多镜头分镜也能写。它是终稿档模型——质量优先时用它,不适合用来跑二十个草稿变种试方向。要在方向上做快速迭代,用 Grok Imagine,选定方向后再把胜出的 prompt 交给 Seedance 走终稿。
一个合理的心理模型是:只要镜头追求质量,默认选 Seedance 2.0——参考重的镜头、终稿成片、高级交付都用它。要在方向上快速迭代试错,用 Grok Imagine;要 Veo 3.1 的专属 4K 升级路径,终稿时切过去;要单 prompt 带硬切的多镜头分镜,用 Kling V3。
统一多模态架构——Seedance 2.0 把文本、图像、音频、视频作为一组输入打包处理,而 1.5 Pro 是分开处理的。实战上最大的收益是角色标签参考图带来的跨镜一致性、节拍感知音频同步,以及原生音频生成省掉一次单独的 TTS 流程。
可以。对白、环境音、配乐与画面在同一推理里产出,自带唇形同步。你也可以喂一段参考音频,画面会按节拍剪。
4 到 15 秒,最高原生 1080p。画幅含 16:9、9:16、4:3、3:4、21:9、1:1,一次 prompt 里同时拿到电影宽幅母版和竖版社媒裁切。
Seedance 2.0 在公开 Elo 榜上的 text-to-video 和 image-to-video 双榜第一,领先 Kling 3.0、Veo 3、Runway Gen-4.5,且 1080p 上与 Veo 3.1 持平。Veo 3.1 剩余的差异化在专属 4K 升级器;Kling V3 强在显式多镜头分镜。Seedance 没有能力短板——是当前旗舰里最强的全能选手。
支持——它在公开 Elo 榜的 text-to-video 和 image-to-video 双榜第一。喂一张参考帧,它会把你的主体、构图、风格带进运动,角色标签参考还能让角色跨镜保持一致。
图片
Videos
Audios
Prompt*
选择比例*
视频分辨率*
时长*