
配音与本地化
把音频换成另一种语言并重对口型——不用重拍就把说话头像视频本地化。
可灵对口型模型——把已有视频片段重新对口型到新音频,约 2 积分/秒。
一次充值积分,通用所有模型,想用再用。 · 按需充值,不存在月度清零。
Powered by Kling AI's API on ZOOOP
提供一段视频和一段新音频,Kling Lipsync 把主体的嘴重新对齐到新音频——给你已有的素材做配音、换声、换语言。
约 2 积分/秒——便宜到可以量产换声。
用 2 到 60 秒的音频轨驱动对口型。
为已有视频而造——说话头像片段、录制表演、之前生成的视频。

把音频换成另一种语言并重对口型——不用重拍就把说话头像视频本地化。

把已有片段的对白换成新一条或更干净的录音,嘴重新对齐。
按需求挑工具。积分在 ZOOOP 上所有模型通用。
从本页或视频工具里选中 Kling Lipsync。
上传视频片段(2–10 秒)和新音频轨(2–60 秒)。
确认输入。
生成,然后下载或发送到画布。
Kling Lipsync 是重对口型工具:给它一段视频和一段新音频,它把主体的嘴重新对齐到新音频。起点是你已经有的素材——说话头像片段、录制表演、或你在 ZOOOP 别处生成的视频——这让它成为配音、换声、换语言、以及修复音频漂移的模型。
经济学是个真实卖点:约 2 积分/秒,它是最便宜的对口型选项之一,所以把同一片段做成几个本地化语言版本是便宜而非奢侈的事。驱动音频可以 2 到 60 秒,源视频片段 2 到 10 秒。
天然的搭配是 TTS 模型:用 Multilingual V3 或其它语音模型生成新语音(任意支持的语言),再把你的片段重对口型到它——不用重拍就是一个完整的本地化版本。
它不适合的场景:如果你从单张静帧而不是视频起步,那要用 Kling Avatar V2,它从一张图生成说话表演。Pixverse Lipsync 是另一个对口型选项。Kling Lipsync 的赛道是给已有视频素材重对口型。
一个合理的心理模型:有一段视频、想把它的嘴对到新音频时,默认选 Kling Lipsync。要从静帧起步就用 Kling Avatar V2。
它把已有视频片段的嘴重新对齐到新音频轨——用于配音、换声、换语言,或修复你已有素材的同步漂移。
视频片段 2 到 10 秒,音频轨 2 到 60 秒。
Kling Lipsync 把已有视频片段重对口型到新音频。Kling Avatar V2 从单张静帧加音频生成说话视频。已经有素材就挑 Lipsync。
约 2 积分/秒——最便宜的对口型选项之一,很适合量产换声。
Video*
Audio*