说话头像视频
把一张肖像变成主播——讲解、公告、虚拟主持,从一张图加一段语音出。
可灵数字人模型——把一张图加一段音频变成对口型的表演。
一次充值积分,通用所有模型,想用再用。 · 按需充值,不存在月度清零。
Powered by Kling AI's API on ZOOOP
提供一张角色图和一段音频,Kling Avatar V2 生成该角色说这段音频的视频,口型和表情同步。
Standard 出快、省积分的镜头;Pro 出更高保真。输入相同——按镜头重要程度选。
在驱动音频之外加一个 prompt,引导表情和表演。
不需要视频素材——一张图就够产出说话头像表演。
把一张肖像变成主播——讲解、公告、虚拟主持,从一张图加一段语音出。
给插画或生成的角色一段与你音频同步的说话表演。
用不同语言的音频驱动同一数字人,出本地化版本。
不用拍主播就产出说话数字人片段做社媒。
按需求挑工具。积分在 ZOOOP 上所有模型通用。
从本页或视频生成器选中 Kling Avatar V2。
上传一张角色图和一段音频;加 prompt 引导表情。
选 Standard 或 Pro。
生成,然后下载或发送到画布。
Kling Avatar V2 是数字人模型:喂它一张角色图和一段音频,它生成该角色说这段音频的视频,口型同步、表情匹配。关键在于它从一张静帧起步——不需要主播的拍摄素材——所以一张肖像、一张插画或一个生成角色就变成会说话的表演者。对讲解、公告、虚拟主持、角色配音,这是从"图加脚本"到"说话视频"的最快路径。
它以同一输入提供 Standard 与 Pro 双档:Standard 出快、便宜的镜头,Pro 出更高保真的成片。可选的 prompt 在驱动音频之外引导表情和表演。
天然的搭配是 TTS 模型:用 Multilingual V3(或其它语音模型)生成语音,再用它驱动数字人,完全不用录音就是一段完整说话视频——换音频语言即可本地化。
它不适合的场景:如果你已经有一段视频片段、只需把它的嘴重新对到新音频,那是 Kling Lipsync 的活,Pixverse Lipsync 是更低成本的对口型替代。Kling Avatar V2 的赛道是从一张静帧生成说话表演。
一个合理的心理模型:起点是一张图加一段音频时,默认选 Kling Avatar V2。要给已有视频素材重对口型,用 Kling Lipsync。
一张角色图和一段音频。它生成该角色说这段音频的视频,口型和表情同步。可选的 prompt 引导表演。
Standard 是更快、更省积分的档;Pro 是更高保真。输入相同——按镜头重要程度选。
Kling Avatar V2 用音频驱动一张静帧创建说话数字人。Kling Lipsync 把已有视频片段重新对口型到新音频。从单张图起步就挑 Avatar V2。
能——先用 TTS 模型生成音频,再用它驱动数字人,不用任何录音就是一段完整说话视频。
图片*
Audio*
Prompt*