Stability AI 发布了文本音乐生成模型 Audio Diffusion,允许任何人用简单的文本去生成音乐片段。Stability AI表示未来将发布基于 Audio Diffusion 的开源模型和训练代码,用户可以训练自己的音乐生成模型。

Audio Diffusion模型倾向于在较长音频文件中随机裁剪的音频块上进行训练,裁剪或填充以适应扩散模型的训练长度。 使用大量缩减采样的音频潜在表示可以更快地进行推理。能够在不到一秒的时间内在 NVIDIA A100 GPU 上以 44.1 kHz 采样率渲染 95 秒的立体声音频。Audio Diffusion 使用了音频库 AudioSparks 中超过 80 万首授权音乐训练,大约有 12 亿个参数。

官网原文:https://stability.ai/research/stable-audio-efficient-timing-latent-diffusion