微软研究院近期开源了新一代文本转语音(TTS)框架 VibeVoice,致力于解决长篇幅、多人说话场景下的语音合成难题。该模型在表达力、长时一致性多角色自然对话方面实现重大突破,可生成媲美真人播客的高质量音频。VibeVoice项目遵守MIT开源协议。

🌟 核心创新亮点

  1. 超低帧率连续语音分词器
    • 采用7.5Hz超低频的声学与语义分词器(Acoustic/Semantic Tokenizers),在保留音频保真度的同时,将长序列处理效率提升300%,支持长达90分钟的连续语音生成。
  2. 混合式扩散框架
    • LLM理解文本上下文:大语言模型解析对话逻辑与角色关系
    • 扩散模型生成细节:扩散头(Diffusion Head)合成高保真声学特征
    • 二者协同实现自然的话轮转换(Turn-taking)与角色一致性
  3. 多角色对话突破
    可同时处理4个独立说话人的复杂对话场景,远超传统模型1-2人的限制,适用于播客、广播剧等专业场景。

⚙️ 技术突破价值

传统TTS痛点 VibeVoice解决方案
长音频断裂/失真 90分钟连续生成无断层
多角色切换生硬 自然话轮转换与声纹一致性
计算资源消耗大 7.5Hz分词器降低80%显存占用

💡 应用场景前瞻

  • 沉浸式有声内容:自动生成多角色播客/广播剧
  • AI虚拟主持人:动态交互的直播解说系统
  • 长文本有声书:90分钟连续朗读无中断

源代码:https://github.com/microsoft/VibeVoice