微软开源语音合成模型 VibeVoice：实现多角色长对话的自然表达

微软研究院近期开源了新一代文本转语音（TTS）框架 VibeVoice，致力于解决长篇幅、多人说话场景下的语音合成难题。该模型在表达力、长时一致性和多角色自然对话方面实现重大突破，可生成媲美真人播客的高质量音频。VibeVoice项目遵守MIT开源协议。

超低帧率连续语音分词器
- 采用7.5Hz超低频的声学与语义分词器（Acoustic/Semantic Tokenizers），在保留音频保真度的同时，将长序列处理效率提升300%，支持长达90分钟的连续语音生成。
混合式扩散框架
- LLM理解文本上下文：大语言模型解析对话逻辑与角色关系
- 扩散模型生成细节：扩散头（Diffusion Head）合成高保真声学特征
- 二者协同实现自然的话轮转换（Turn-taking）与角色一致性
多角色对话突破
可同时处理4个独立说话人的复杂对话场景，远超传统模型1-2人的限制，适用于播客、广播剧等专业场景。

源代码：https://github.com/microsoft/VibeVoice

开源的个性化语言学习工具-WordPecker