从声音到全息人-Meta AI 发布的音频驱动虚拟人物Audio2PhotoReal
有没有想过,如果一个人只发出声音,我们能不能“看到”他?比如,听别人说话,是不是能想象出他长什么样、在做什么动作?Meta AI(原Facebook AI Research-FAIR)团队开发了一项新技术, 从声音中“生成”出一个看起来像真的“人” —–Audio2PhotoReal,通过音频驱动生成全身逼真的虚拟人物对话,包括动作、表情和多人对话等,可广泛应用于虚拟现实、影视制作等领域。项目遵守 CC-NC 4.0 International licensek协议。
这项技术不是靠“看”视频,而是通过深度学习,从声音中提取信息,再生成图像。具体来说,它做了几件事:
- 听声音:系统会分析语音中的语气、语调、节奏等信息。
- 生成表情:根据语音,生成一个“看起来像真的”人的面部表情。
- 生成动作:根据语音,生成一个和说话人一致的身体动作。
- 合成全息:把表情和动作结合起来,生成一个看起来像真的“人”。
技术特色
1. 多模态融合
该系统通过融合音频、面部表情和身体姿态等多模态数据,实现了对人物形象的全面重建。具体而言,系统包括以下四个核心模型:
- 面部扩散模型:根据音频生成面部表情代码
- 姿态扩散模型:根据音频和引导姿态生成身体关节角度
- 引导VQ模型:通过1帧/秒的音频生成姿态编码
- VQ编码器-解码器模型:对连续姿态空间进行向量化量化
2. 高精度重建
系统能够生成高质量的3D人体模型,其重建精度达到毫米级。通过PyTorch框架实现,支持CUDA 11.7和GCC 9.0的兼容性,确保了在高性能计算设备上的高效运行。
3. 可视化能力
项目提供了完整的渲染流程,用户可以通过调用渲染API生成全息视频。系统支持将生成的面部表情代码和姿态代码组合,最终输出具有真实感的全息人物形象。
源代码:https://github.com/facebookresearch/audio2photoreal
发表回复