亚马逊的研究团队成功训练了一种新型的LLM针对文本转语音

亚马逊的研究团队成功训练了一种新型的大型语言模型(LLM),特别针对文本到语音(TTS)转换任务,并宣称它具备“突现”的潜能。

这款名为BASE TTS的模型拥有高达9.8亿个参数,成为了目前文本到语音转换领域规模最大的模型。为了探究模型规模对性能的影响,研究人员在多达10万小时的公共语音数据上,对多个不同规模的模型进行了训练。他们期望观察这些模型在达到一定规模后,是否能像自然语言处理模型那样实现显著的性能飞跃。

在实验中,一个中等规模的模型——拥有4亿参数并在1万小时音频数据上训练——在处理复杂测试句子时,展现出了显著的多样性和稳健性提升。这些测试句子包含了复杂词汇、句法结构以及副语言特征,如复合名词、情感表达、外语词汇和标点符号等,这些都是文本到语音系统经常面临的挑战。

尽管BASE TTS在处理这些句子时并未达到完美,但它在重音、语调和发音上的错误明显减少,相比现有模型有了显著提升。研究人员指出:“这些测试句子包含了一系列挑战性任务,而BASE TTS并未专门针对这些任务进行训练。”

然而,令人惊讶的是,在10万小时音频数据上训练的9.8亿参数版本的模型,并未在性能上超越4亿参数版本的模型。这一发现表明,在模型扩展过程中,存在一个最佳的规模点,使得模型在多样性和稳健性上达到最佳平衡。

尽管如此,BASE TTS的创建仍然为对话式人工智能领域带来了鼓舞。研究人员计划继续探索,以确定能够发挥突现能力的最佳模型规模。此外,BASE TTS的设计还考虑了轻量级和流式传输的需求,情感和韵律数据被单独封装,使得在低带宽连接上也能传输出听起来自然的语音音频。

联系方式
回顶部