支持六种语言,Meta 发布生成式语音系统 Voicebox
支持六种语言,Meta 发布生成式语音系统 Voicebox

支持六种语言,Meta 发布生成式语音系统 Voicebox

上周,Meta Platforms的人工智能研究部门推出了Voicebox,这是一个可以从文本生成语音的机器学习模型。Voicebox与其他文本转语音模型的不同之处在于,它具备执行许多未经过训练的任务的能力,包括编辑、降噪和风格转换。

该模型是使用Meta研究人员开发的一种特殊方法进行训练的。尽管由于对滥用的道德担忧,Meta尚未发布Voicebox,但初步结果是令人鼓舞的,并且在未来可以驱动许多应用程序。

“流量匹配”

Voicebox是一个生成模型,可以合成六种语言的语音,包括英语、法语、西班牙语、德语、波兰语和葡萄牙语。与大型语言模型类似,它经过了针对许多应用程序的非常通用的任务训练。但是,大型语言模型试图学习单词和文本序列的统计规律,Voicebox则经过训练学习将语音音频样本与其转录之间的模式映射。

这样的模型可以应用于许多下游任务,几乎不需要进行微调。Meta的研究人员在描述Voicebox的技术细节的论文(PDF)中写道:“我们的目标是构建一个单一模型,通过上下文学习来执行许多文本引导的语音生成任务。”

该模型使用Meta的“Flow Matching”技术进行训练,该技术比其他生成模型中使用的基于扩散的学习方法更高效且具有更强的可推广性。该技术使Voicebox能够“从各种语音数据中学习,而无需对这些变化进行仔细标记”。由于不需要手动标记,研究人员能够使用来自有声读物的50,000小时的语音和转录对Voicebox进行训练。

该模型使用“文本引导的语音填充”作为其训练目标,这意味着它必须根据周围的音频和完整的文本转录来预测语音片段。在训练过程中,模型会提供一个音频样本及其相应的文本。然后,音频的某些部分被屏蔽,模型试图使用周围的音频和文本作为上下文来生成被屏蔽的部分。通过反复进行这个过程,模型学会以一种具有推广性的方式从文本生成自然流畅的语音。

跨语言复制语音、编辑语音错误等

与针对特定应用程序进行训练的生成模型不同,Voicebox可以执行许多未经过训练的任务。例如,该模型可以使用两秒钟的语音样本为新文本生成语音。Meta表示,这种能力可以用于让不能说话的人发出声音,或者自定义非可玩游戏角色和虚拟助手的声音。

Voicebox还可以以不同的方式进行风格转换。例如,您可以为模型提供两个音频和文本样本。它将使用第一个音频样本作为风格参考,并修改第二个音频样本以与参考音频的声音和语调相匹配。有趣的是,该模型可以在不同的语言之间进行相同的操作,这可以用于“帮助人们以一种自然、真实的方式进行交流,即使他们不说相同的语言”。

该模型还可以执行各种编辑任务。例如,如果在您录制声音时背景中有狗叫声,您可以将音频和转录提供给Voicebox,并屏蔽带有背景噪音的片段。模型将使用转录来生成没有背景噪音的音频缺失部分。

同样的技术也可以用于编辑语音。例如,如果在说话时说错了一个词,可以屏蔽音频样本的该部分,并将其与经过编辑的文本转录一起传递给Voicebox。模型将以与周围的语音和语调相匹配的方式生成缺失的部分,其中包含新的文本。

Voicebox的一个有趣应用是语音抽样。该模型可以从单个文本序列中生成各种语音样本。这种能力可以用于生成合成数据,以训练其他语音处理模型。“我们的结果显示,使用Voicebox生成的合成语音训练的语音识别模型的性能几乎与使用真实语音训练的模型相当,错误率只有1%,而之前的文本转语音模型生成的合成语音则会有45%到70%的错误率下降,”Meta写道。

Voicebox也有一些限制。由于它是在有声读物数据上进行训练的,它在转化为非正式对话和包含非语言声音的对话中的表现并不好。它也无法对生成的语音的不同属性(如语音风格、语气、情感和声学条件)提供完全控制。Meta的研究团队正在探索未来如何克服这些限制的技术方法。