Kling AI

Kling Avatar V2

可灵数字人模型——把一张图加一段音频变成对口型的表演。

无需订阅
积分永不过期
了解更多

一次充值积分,通用所有模型,想用再用。 · 按需充值,不存在月度清零。

Powered by Kling AI's API on ZOOOP

核心能力

图 + 音频到表演

提供一张角色图和一段音频,Kling Avatar V2 生成该角色说这段音频的视频,口型和表情同步。

Standard 与 Pro 双档

Standard 出快、省积分的镜头;Pro 出更高保真。输入相同——按镜头重要程度选。

prompt 引导

在驱动音频之外加一个 prompt,引导表情和表演。

一张静帧即可

不需要视频素材——一张图就够产出说话头像表演。

使用场景

说话头像视频

说话头像视频

把一张肖像变成主播——讲解、公告、虚拟主持,从一张图加一段语音出。

角色配音

角色配音

给插画或生成的角色一段与你音频同步的说话表演。

本地化代言人

本地化代言人

用不同语言的音频驱动同一数字人,出本地化版本。

社媒数字人内容

社媒数字人内容

不用拍主播就产出说话数字人片段做社媒。

如何选对模型

按需求挑工具。积分在 ZOOOP 上所有模型通用。

从一张图做说话数字人Kling Avatar V2
给已有视频重对口型Kling Lipsync
对口型、更低成本Pixverse Lipsync
用于驱动的旁白音频Multilingual V3
带同步音频的文生视频Kling O3

如何使用

01

从本页或视频生成器选中 Kling Avatar V2。

02

上传一张角色图和一段音频;加 prompt 引导表情。

03

选 Standard 或 Pro。

04

生成,然后下载或发送到画布。

深入了解

Kling Avatar V2 擅长什么——又不擅长什么

Kling Avatar V2 是数字人模型:喂它一张角色图和一段音频,它生成该角色说这段音频的视频,口型同步、表情匹配。关键在于它从一张静帧起步——不需要主播的拍摄素材——所以一张肖像、一张插画或一个生成角色就变成会说话的表演者。对讲解、公告、虚拟主持、角色配音,这是从"图加脚本"到"说话视频"的最快路径。

它以同一输入提供 Standard 与 Pro 双档:Standard 出快、便宜的镜头,Pro 出更高保真的成片。可选的 prompt 在驱动音频之外引导表情和表演。

天然的搭配是 TTS 模型:用 Multilingual V3(或其它语音模型)生成语音,再用它驱动数字人,完全不用录音就是一段完整说话视频——换音频语言即可本地化。

它不适合的场景:如果你已经有一段视频片段、只需把它的嘴重新对到新音频,那是 Kling Lipsync 的活,Pixverse Lipsync 是更低成本的对口型替代。Kling Avatar V2 的赛道是从一张静帧生成说话表演。

一个合理的心理模型:起点是一张图加一段音频时,默认选 Kling Avatar V2。要给已有视频素材重对口型,用 Kling Lipsync。

常见问题

Kling Avatar V2 需要什么?+

一张角色图和一段音频。它生成该角色说这段音频的视频,口型和表情同步。可选的 prompt 引导表演。

Standard 和 Pro 有什么区别?+

Standard 是更快、更省积分的档;Pro 是更高保真。输入相同——按镜头重要程度选。

Kling Avatar V2 和 Kling Lipsync 有什么不同?+

Kling Avatar V2 用音频驱动一张静帧创建说话数字人。Kling Lipsync 把已有视频片段重新对口型到新音频。从单张图起步就挑 Avatar V2。

能用生成的语音吗?+

能——先用 TTS 模型生成音频,再用它驱动数字人,不用任何录音就是一段完整说话视频。

更多模型