AI技术在音频生成领域开启声音新纪元
AI技术在音频生成领域开启声音新纪元

AI技术在音频生成领域开启声音新纪元

在过去的一年中,集中在计算机视觉(CV)和自然语言处理(NLP)领域的工作数量显著增加。因此,全球的学术界正在探索深度学习和大语言模型(LLMs)在音频生成方面可能带来的潜在益处。仅在最近几周,已经发表了四篇新论文,每篇都介绍了一种潜在有用的音频模型。

MusicLM

第一个模型是MusicLM,由Google和IRCAM – Sorbonne Université的研究人员开发。MusicLM是一种能够根据文本描述生成高质量音乐的模型,例如“由失真的吉他旋律支持的舒缓的小提琴旋律”。MusicLM以分层序列到序列建模的方式对条件音乐进行建模,生成持续几分钟的24 kHz音乐。MusicLM可以同时训练文本和旋律。这使得模型能够根据标题文本的音调来调整哼唱或吹口哨的曲调的音高和速度。MusicCaps是一个公开可用的数据集,包含5.5k个音乐-文本配对,每对配对都有详细的人工生成描述。

MusicLM专门针对SoundStream、w2v-BERT和MuLan预训练模块进行了训练。其中,类似CLIP的模型MuLan是三个预训练模型之一,它特别有趣,因为它学会了在嵌入空间中将音频和文本进行更紧密的编码。正如在他们的论文《MusicLM: Generating Music From Text》中提到的那样,借助MuLan的支持,MusicLM能够克服配对数据不足的问题,并从大规模音频语料库中获取知识。

SingSong

SingSong是谷歌的另一个研究项目,制作了一种系统,可以生成与输入人声音频同步的器乐音频。换句话说,生成的器乐音频可以与输入的人声音频简单组合,从而创作出连贯的音乐,包括原始输入。

SingSong利用了音乐技术的两个重要领域的发展:源分离和生成式音频建模。团队利用商业化的源分离技术将包含100万首音乐曲目的大规模数据集划分为配对的人声和器乐源,并将其作为并行数据进行训练。然后,他们重新调整了AudioLM,以进行基于人声生成器乐的条件“音频对音频”生成建模,并在源分离数据上进行了有监督的训练。AudioLM是一个涉及中间表示层次的音频生成模型,因此非条件的音频生成建模非常适合使用它。

在他们的论文《SingSong: Generating musical accompaniments from singing》中,团队提出了两种增强输入人声的特征化策略以提高泛化能力:

1在人声输入中添加噪音以隐藏伪影。

2只使用来自AudioLM的最粗糙的中间表示作为条件输入。

这些增强措施使孤立人声的性能比标准的AudioLM增强提高了55%。与参考检索方法相比,听众在66%的时间里更喜欢使用SingSong生成的器乐。更重要的是,在34%的时间里,听众更喜欢SingSong生成的器乐而非真实的器乐伴奏。

Moûsai

Moûsai是由苏黎世联邦理工学院(ETH Zürich)和马普智能系统研究所(Max Planck Institute for Intelligent Systems)的研究人员合作进行的研究项目,引入了一种文本条件下的级联扩散模型,可以基于超过一分钟的上下文构建长时序48kHz立体声音乐,并生成多样化的音乐。

正如他们在论文《Moûsai: Text-to-Music Generation with Long-Context Latent Diffusion》中提到的那样,研究人员在Moûsai模型中采用了两阶段级联扩散。第一阶段利用一种新颖的扩散自编码器将音频波形压缩了64倍,同时保持了适度高的音质水平。第二阶段则学习生成基于预训练语言模型生成的文本嵌入的降维潜在表示。他们在两个阶段都使用了经过优化的高效U-Net。研究结果显示,推断可以快速进行,使得该模型在实际应用中具有实践性。类似地,整个系统可以在最小资源(例如大多数学院提供的资源)上进行教学和运行,每个阶段在单个A100 GPU上训练大约需要一周的时间。

AudioLDM

AudioLDM是由萨里大学(University of Surrey)与伦敦帝国理工学院(Imperial College London)合作开发的一个TTA系统。它使用连续潜在扩散模型(LDMs),实现了最先进的生成质量,并具有计算效率和文本条件下的音频操作优势。他们在《AudioLDM: Text-to-Audio Generation with Latent Diffusion Models》一文中的研究表明,借助基于mel频谱图的变分自编码器(VAE),AudioLDM能够学习在潜在空间中构建音频先验。

研究人员并不依赖于语言-音频对来训练LDMs,而是利用CLAP潜在变量来促进TTA的创建。他们的实验表明,只利用音频输入在LDM训练中可以获得高质量且计算经济的TTA系统。他们的研究表明,只使用音频而不是音频-文本数据对来训练LDMs可以更有效地进行训练。

在AudioCaps数据集的测试中,提出的AudioLDM相比基线模型DiffSound有很大的优势,以23.31的FD(freshet distance)实现了最先进的TTA性能。该技术允许在采样过程中进行零样本音频变化。

EPIC SOUNDS数据集

最后,牛津大学和布里斯托大学使用EPIC-audio KITCHENS100创建了一个庞大的数据集,名为EPIC-SOUNDS,其中包含了日常噪声的大量数据。EPIC-SOUNDS包括来自45个住宅厨房的700个视频中筛选出的100小时录音,总共包含117,553个声音事件。其中,有78,366个声音事件根据44个类别进行了分类,还有39,187个未分类的声音事件。声音的分类是通过听觉描述来创建的,使其非常适合用于音频/声音识别和声音事件检测等声学挑战。

音乐生成技术可能会深刻改变音乐文化,并重新定义利益相关者的经济联系。许多研究人员对这些模型呈现出的深层危险表示关注,比如增加了对音乐创作的参与。具体到目前讨论的主题,人声作为一种演唱乐器可能与个人身份有着最强烈的联系。

为了避免从零开始生成音乐或模仿个人身份的系统缺点,许多研究人员认为这些模型应依赖用户的主动性(唱歌)来产生音乐,并在输出中保持个体的独特性。

研究人员还认为,最近的这些研究将改变音乐产业,使音乐创作者能够更快地生成音乐创意和概念,尝试新的声音和风格,并自动化重复性任务。此外,人类音乐家为音乐带来了艺术感和细微差异,这是机器无法复制的。