美团(Meituan)近日开源了一款名为 LongCat-Video-Avatar-1.5 的数字人生成模型。该模型采用 MIT 开源协议,支持本地部署,主打音频驱动的超长视频生成。其核心能力在于只需提供一张参考图片和一段音频,即可快速生成唇形同步、身份特征稳定且带有自然肢体动作的 Talking Head(说话头像)视频。

以下是该开源项目的详细核心功能与体验通道。


核心功能特性

  • 高精度唇形同步与自然动效: 相比于市面上部分闭源方案,LongCat-Video-Avatar-1.5 在唇形匹配度上表现优异,并能自适应生成自然的眨眼、摇头以及丰富的手势动作。
  • 超长视频生成(Long Video Continuation): 攻克了长视频生成中常见的“脸部崩坏”与身份漂移(Identity Drift)问题,保证全局身份特征的高度一致性(Identity Consistency)。
  • 多语言与多角色支持: 完美支持中文、英语、日语等多语言音频输入。同时具备多角色对话处理能力,在多人场景下各角色可独立进行动作与语音匹配。
  • 广谱风格兼容: 模型不仅适用于真人照片,对动漫角色、动物等非真实感头像同样具有极高的生成成功率。
  • 完全开源与本地化: 采用商用友好的 MIT 开源协议,开发者与创作者可以将其部署在本地环境,实现无限制的批量内容生产。

适用场景

该工具极大地降低了虚拟数字人的制作门槛,非常适合以下创作与商业场景:

  • 电商跨境营销: 快速渲染多语言的带货短视频或直播回放。
  • 内容自媒体: 助力不便露脸的 YouTuber、播客创作者快速生成视频动画。
  • 企业培训与教育: 批量制作虚拟讲师课件,提升数字内容生产力。

项目资源与体验入口

目前该项目已在 GitHub 与 Hugging Face 平台同步上线,用户可以通过以下链接获取源码或在线体验: