微软研究院近期开源了新一代文本转语音(TTS)框架 VibeVoice,致力于解决长篇幅、多人说话场景下的语音合成难题。该模型在表达力、长时一致性和多角色自然对话方面实现重大突破,可生成媲美真人播客的…
继续阅读