BOFFIN TTS: FEW-SHOT SPEAKER ADAPTATION BY BAYESIAN OPTIMIZATION
链接:https://arxiv.org/abs/2002.01953
相关代码:暂无
摘要
本文提出基于贝叶斯优化的迁移学习TTS方法,简称BOFFIN TTS(Bayesian Optimization For Finetuning Neural Text To Speech)。本文的目标是使用少量目标说话人带标签语料,在已训练好的基础模型上进行迁移学习,生成能够模拟目标说话人风格的语音合成模型。作者实验验证不存在一种“一刀切”的方案适用于所有自适应情况,需要一定数量的语料集来微调超参数以产生质量较高的迁移结果。本文通过使用贝叶斯优化方法来高效的调整超参数,作者的实验结果表明,本文方案能够在合成音频的相似度上,提升基准方法30%以上,同时,本文方法能够通过少于10分钟的音频,训练生成和基线模型相似度及自然度都差不多的模型。
1 简介
给定足够的音频及对应的文本,TTS模型就能够合成与目标说话人相似的音频,但是这需要10个以上小时的高质量音频,如果只有少量音频,那么就会在合成的音质上有所牺牲。
为了能够通过目标说话人少量的录音数据就能够合成其音频,作者通过在多说话人模型上进行迁移训练的方式进行模型训练,这种方法也叫做“说话者自适应”。少量语料的自适应可能可以只利用几分钟的音频,这些音频包含的音素可能可以不是语言全覆盖,这是因为可以通过说话者间的共同语音信息进行适当的映射。说话者表征只是本文网络中的一小部分,因此,只需要少量语料取学习说话者表征就可以了。
已有的说话者自适应方案有两大类,一类是通过训练好的说话者编码器提取说话者信息,然后再将这些信息和语言特征一起输入TTS模型进行训练。第二类方法是通过微调已训练好的网络,实现说话者自适应。本文方案属于第二种方法。
本文的主要贡献就是证明,要成功的进行说话者自适应,就需要为每个目标说话人微调一份自适应超参数(也称为自适应策略),对于超参数的实验,作者做了仔细的观测实验,并介绍了两种之前未使用过的超参数,证明了优化超参数依赖于目标说话人语料的音素覆盖量及音频质量。
本文的工作将few-shot speaker-adaptation问题当作一个超参数寻找的优化问题。作者提出的BOFFIN TTS 系统能够自动有效的解决这个优化问题。最后,作者在不同说话人语料及不同质量语料上进行了实验。
2 系统描述
2.1 基线多说话人模型
基线多说话人模型使用的是基于Tacotron2的多人个性化模型,包括一个音频特征生成模型和一个声码器。音频特征生成模型的输入为音素输入,说话人embedding是通过一个one hot向量进行学习的。然后这个学习的稠密表示将和Tacotron的Encoder输出部分进行拼接,输入注意力机制,生成对应的对应说话人Mel谱。优化器采用的是ADAM,损失是L1距离。Mel谱通过神经网络声码器生成对应的音频。声码器由74人语料训练而成。具体架构如图1所示
2.2 说话者自适应基准模型
现有的说话者自适应方案拥有相同的结构,本文也采用类似结构。为了合成未在训练集内的数据,本文方案为通过与预训练阶段相同的方法继续训练模型,只是更换了训练数据为目标说话人数据进行训练微调参数。为了避免过拟合,采用20%验证数据提前结束微调训练。为了获得高质量的合成结果,需要高昂的人工调参成本。最后,通过实验证明,本文方案能够提升自适应的质量。
3 BOFFIN TTS
BOFFIN TTS和基线自适应模型有两点不同,第一,BOFFIN TTS允许通过控制参数去适应不同的目标说话人,第二,它能够自动有效的学习这些参数。
3.1 BOFFIN TTS怎么做到说话者自适应
关键在于学习目标说话人特有的特征而不遗忘预训练模型已经学到的通用信息。作者相信有9个超参数是影响自适应效果的关键音素,它们包括:学习率、batch size、衰减因子、梯度控制阈值、dropout和两个zoneout参数,另外还有两个是BOFFIN TTS独有的参数。
虽然通过控制前面的7个超参数能够学习到说话者身份特征,但是结果往往不是很理想。因此,本文提出了另外两个额外的超参数。第一个是:补充语料库,形成一个可调整参数,该参数控制训练模型目标说话人与说话人的数据比例(一种简单的解决灾难性遗忘的方案,简称彩排方案)。第二个参数是预训练模型的迭代次数。
另外,不同于基准模型更新微调所有的预训练模型参数,本文方法之更新微调speaker embedding网络中的参数以及解码器网络参数。这样做的目的是为了提高模型的鲁棒性。
3.2 BOFFIN TTS如何进行参数搜索
学习一个优化策略是一个高维多参数难题(HPO),HPO通常需要费力的进行评估测试。因此,不能通过梯度优化的方法进行参数学习,而是通过简单的贪心寻找方法,因此,最终选择了贝叶斯优化方法。
简而言之,BO是一种很好的解决HPO的方法,它能够通过已经学习的知识,预测那些未学习的参数中,怎样的才是好的。具体而言,为了预测第t+1个参数,需要将已收集的t个参数拟合到一个高斯模型,参数对为Dt={xi,yi},i=1,...t。产生的高斯预测模型能够通过x生成对应的y。然后,通过这种方法评估哪个x值才是最优解。具体公式如下:
对于公式内层公式的梯度,有方便的的分析形式,具体见参考文献【23】。因此,xt+1的学习,可以通过通用的梯度下降法进行搜索。
BOFFIN TTS在训练中的性能评估是通过计算验证集的L1损失技术的。虽然L1损失不一定有助于提高合成音频的质量,但是对于发现有用的超参数,却是可以的。从三个数据集进行说话者自适应的相关信息如图2所示。由于需要有效的初始化信息,图片所绘内容从随机初始化后的第10次迭代开始。从图中可以看出,随机搜索参数(RS)并不能提升基准自适应系统,另外,对于不同数据集,甚至于不同目标说话人,最终搜索出的超参数都不一样。
4 实验及分析
实验证明通过计算L1损失,BOFFIN提升了基准模型的性能,但是是否确实从人类听觉感受上有所提升,本文也通过人工测试方法进行了验证。
4.1 实验策略
为了充分测试,本文采用三个数据集进行,分别是(1)多人录音棚录音;(2)开源VCTK录音;(3)LibriTTS开源录音。
对于每个实验,作者使用4个同训练数据集的未知用户进行迁移学习,没人选择100句话,大概5-10分钟,并且其中20%作为验证集。对于系统评估,考虑两个维度的指标,包括发音的自然度和发音相似度。评估方式采用了MUSHRA和MOS评分方式进行,MOS评分有25个美国本土人员进行。
4.2 从少量数据训练的基础模型进行话者迁移
首先第一个实验,作者用4男4女录音棚音频训练了一个基础模型,其中,每人大概2500句话用于训练。图3(a)显示了BOFFIN TTS显著提升了合成音频的相似度,另外,自然度也略有提升。另外,表1显示了在250分之一训练数据的情况下,BOFFIN TTS相对于基准模型也没有明显差异。
4.3 从更多数据训练的基础模型进行说话者迁移
第二个实验的基础模型训练数据由14个VCTK数据集中的数据发音者数据(每人约400句)和前面第一个实验的8个人的数据构成。然后用4个未知VCTK数据进行迁移训练实验,从图3(b)中可以看出相似度提升相对于第一个实验提升更多,自然度也有所提升。表1也显示了合成的音频质量没有明显的下降。
4.4 从大量训练的基础模型进行说话者迁移
为了了解BOFFIN TTS的局限性,作者用LibriTTS中200人(每人200句)语料训练基础模型,然后从LibriTTS语料中选取4个人进行迁移训练,图3(c)展示了相关的实验结果,结果显示,模型也能够进行相应的迁移学习,但是由于训练数据质量的局限性(含噪声),自然度较差,由于合成音频质量差,也影响了表1中相应的相似度结果。
5 结论
本文提出的少量语料进行迁移学习的说话者自适应框架,能够很好的学习目标说话人的音频特征,相对于已有的one shot策略,结果上有明显的性能提升。
6 部分参考文献
[1] Javier Latorre, Jakub Lachowicz, Jaime LorenzoTrueba, Thomas Merritt, Thomas Drugman, SrikanthRonanki, and Viacheslav Klimkov, “Effect of data reduction on sequence-to-sequence neural tts,” in ICASSP,2019.
[2] Aaron van den Oord, Sander Dieleman, Heiga Zen, ¨Karen Simonyan, Oriol Vinyals, Alex Graves, NalKalchbrenner, Andrew Senior, and Koray Kavukcuoglu,“Wavenet: A generative model for raw audio,” in 9thISCA Speech Synthesis Workshop, 2016.
[3] Andrew Gibiansky, Sercan Arik, Gregory Diamos, JohnMiller, Kainan Peng, Wei Ping, Jonathan Raiman, andYanqi Zhou, “Deep voice 2: Multi-speaker neural textto-speech,” in NeurIPS, 2017.
[4] Wei Ping, Kainan Peng, Andrew Gibiansky, Sercan OArik, Ajay Kannan, Sharan Narang, Jonathan Raiman,and John Miller, “Deep voice 3: 2000-speaker neuraltext-to-speech,” ICLR, 2018.
[5] Yu-An Chung, Yuxuan Wang, Wei-Ning Hsu, Yu Zhang,and RJ Skerry-Ryan, “Semi-supervised training for improving data efficiency in end-to-end speech synthesis,”in ICASSP, 2019.
[6] Junichi Yamagishi, Takao Kobayashi, Yuji Nakano, Katsumi Ogata, and Juri Isogai, “Analysis of speakeradaptation algorithms for hmm-based speech synthesis and aconstrained smaplr adaptation algorithm,” IEEE Transactions on Audio, Speech, and Language Processing,2009.