论文阅读_语音识别_Wisper

英文名称: Robust Speech Recognition via Large-Scale Weak Supervision
中文名称: 通过大规模弱监督实现鲁棒语音识别
链接: https://proceedings.mlr.press/v202/radford23a.html
代码: https://github.com/openai/whisper
作者: Alec Radford, Jong Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey, Ilya Sutskever
机构: OpenAI
日期: 2022-12-06
引用次数: 1032

1 读后感

语音识别不仅用于语音输入、语音聊天，生成字幕，还在语音合成，视频分析等等领域作为工具使用，一方面需要识别不同语音，不同发音人的音频特征，还需要生成合理通顺的文本（选择多音字，标点）等等。

Whisper 是 OPENAI 提供的语音转文字的引擎，它是一个开源工具，在自己的 GPU 机器上也能搭建。Wisper 是一个多语音识别引擎，简单用过，感觉对中文识别还是很好的。下面介绍 Whisper 的实现原理。

论文使用非常大量弱监督的标注数据训练模型，这里的弱监督包含大量多语言多任务的数据，以提升语音识别的准确性和稳健性，达到与有监督微调模型同等的识别效果。其底层逻辑是使用多任务训练能提升模型的鲁棒性。

2 摘要

目标：扩展弱监督语音识别的范围，减小弱监督和有监督学习的差距。使模型不再需要根据情境精调，就可以在广泛的环境中“开箱即用”可靠地工作。

方法：通过大量多语言多任务的语音数据，利用弱监督方法，训练不需要精调的语音识别模型。

结论：当扩展到 680,000 小时的多语言和多任务监督时，生成的模型可以很好地推广到标准基准，无需任何数据集特定的微调，即可与有监督学习的结果竞争，达到了与人类接近的准确性和稳健性。

3 引言

之前的方法是使用有监督数据训练模型，约需要 1000+ 小时标注数据；而 Wav2Vec 2.0 的技术使用 1,000,000 小时的无标注数据预训练模型，再用少量标注精调模型；它的表现已经超越了之前的最好水平，特别适用在标注数据较少的情况下。

无监督数据主要训练编码器，能很好地实现音频表征，但缺乏将表征映射到可用输出的解码器，所以需要微调才能实现语音识别等任务。但在一个数据集上精调的模型往往难以泛化到其它数据集上，由此限制了模型的实用性和鲁棒性。

实验证明，与在单个数据源上训练的模型相比，在多数据集/域中以监督方式进行预训练的语音识别系统表现出更高的鲁棒性，在图像领域的应用也证明了，更大的弱监督数据集显着提高了模型的鲁棒性和泛化性。

文中提出的构建 Whisper 模型工程中，将弱监督语音识别扩展了一个数量级，达到 680,000 小时的标记音频数据。并展示了在这种规模上训练的模型可以很好地转移到现有数据集零样本，无需任何特定于数据集的微调即可获得高质量的结果。

除了数据量，训练范围还从纯英语语音识别扩展到多语言和多任务，680,000 小时的音频中，117,000 小时涵盖 96 种英语外的其他语言，以及 125,000 小时的翻译数据；并证明联合多语言和多任务训练没有缺点，甚至有好处。另外，文中 Whisper 没有使用自监督方法。

4 方法

image.png

4.1 数据预处理

利用 sequence-to-sequence 模型在语音和对应的转录文本（音频转文本）之间进行映射，训练 Whisper 模型来预测音频对应的原始文本，而无需任何显著的标准化或预处理。

多样化的数据集，涵盖了来自许多不同环境、录音设置、扬声器和语言的广泛音频分布。虽然音频质量的多样性可以帮助训练模型变得稳健，但转录质量的多样性却没有好处，因此，使用过滤方法以得到高质量的转录。例如：检测并删除机器生成的转录本；使用音频语言检测器，保证音频和文本使用的语言一致，或者作为 X->en 翻译数据使用；还使用转录文本的模糊去重复来减少训练数据集中的重复量和自动生成的内容。

将音频文件分成 30 秒的片段，并与该时间片段内发生的转录子集配对。

4.2 模型

使用现成的架构来避免将文中验证与模型改进混淆。选择了具有“编码器 - 解码器”结构的 Transformer 模型结果。

音频被重新采样到 16,000 Hz，并且在 25 毫秒窗口上以 10 毫秒的步幅计算 80 通道对数梅尔频谱图表示。对于特征归一化，将输入全局缩放到 -1 到 1 之间，预训练数据集中的均值近似为零。

网络结构如图 -1 所示，编码器和解码器具有相同的宽度和 block 数量，音频数据转换成梅尔频谱图，再经过两个卷积层后送入 Transformer 模型。

使用 GPT-2 中的字节级 BPE 文本标记器来处理英语模型，并为多语言模型重新调整词汇表，因此也适用于其他语言。

4.3 多任务

完整的语音处理系统除了语音识别之外还涉及许多组件，从而形成一个相对复杂的交互部件系统。

由于可以对同一输入音频信号执行许多不同的任务：转录、翻译、语音活动检测、对齐和语言识别，将所有任务和条件信息指定为解码器的输入标记序列（见图 -1 右上的黄色块）。并以转录文本的历史为条件，希望它能够学习文本上下文来解决不明确的音频（Decoder 模块以之前文本作为输入）。

实际训练时，首先，使用 VoxLingua107 模型预测音频的语言，写入输入标记，加入任务标记，再指定是否预测时间戳，然后是数据。图中灰色部分展示了有时间戳处理的差异。

4.4 训练

训练了一套模型，以研究 Whisper 参数范围从 39M 到 1550M 的扩展特性。模型具体参数见论文附录，对比效果见实验部分。不使用任何数据增强或正则化，而是依靠如此大的数据集中包含的多样性来鼓励泛化和鲁棒性。

5 实验

Whisper 的目标是开发一个单一的强大语音处理系统。因此，实验的目的是检查 Whisper 是否能够很好地跨领域、任务和语言进行泛化。因此测试时不使用任何训练数据集，只在 zero-shot 设置中评估 Whisper，以衡量其强大的泛化能力。

语音识别研究通常根据词错误率（WER）指标评估系统。然而，WER 惩罚模型输出与参考文本之间的所有差异，包括文本风格上的无害差异。这个问题对于像 Whisper 这样的零样本模型尤为严重。在 WER 计算之前通过文本标准化来解决这个问题，以尽量减少非语义差异的惩罚。

人们常常需要在对所研究的特定数据几乎没有或完全没有了解的情况下完成任务。所以，人类的表现实际上是一种衡量如何在新的、未知的情况下进行推理和解决问题的能力。这就解释了为什么在特定测试中人类评分不如模型，但在实际环境中超过模型的问题。

Whisper 模型是在广泛和多样化的音频分布上进行训练并在零样本设置中进行评估的，能比现有系统更好地匹配人类行为。具有高有效鲁棒性的模型在分布外数据集上的表现优于预期，其表现取决于参考数据集上的表现，并接近于在所有数据集上表现相等的理想状态。

零样本 Whisper 模型具有与监督 LibriSpeech 模型非常不同的鲁棒性特性，并在其他数据集上远远超过所有基准 LibriSpeech 模型。与图 2 中的人类相比，最佳的零样本 Whisper 模型大致匹配其准确性和鲁棒性。

image.png

6 分析和消融

6.1 数据规模

图 -4 展示了训练规模与效果之间的关系，如在英语语音识别方面，从 3,000 小时到 13,000 小时，性能迅速提高，然后在 13,000 小时到 54,000 小时之间明显放缓。对于多语言语音识别，WER 的改进在 54,000 小时之前平稳增长，然后减少。对于 X→en 翻译，当训练 7,000 小时或更少的音频时，性能几乎为零，然后在 54,000 小时之前以大致对数线性的方式改善，之后再进一步扩展到完整数据集大小时也显示出收益递减。

6.2 模型规模

除了英语语音识别之外，多语言语音识别、语音翻译和语言识别的性能随着模型大小的增加而不断提高。英语识别的回报递减可能是由于接近人类水平表现的饱和效应所致。

6.3 多任务和多语言迁移

对于使用适量计算资源训练的小型模型，任务和语言之间确实存在负迁移：然而，对于最大的模型来说，它们优于仅英语训练，展示了来自其他任务的正迁移。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 194,088评论 5赞 459
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 81,715评论 2赞 371
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 141,361评论 0赞 319
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,099评论 1赞 263
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 60,987评论 4赞 355
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,063评论 1赞 272
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,486评论 3赞 381
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,175评论 0赞 253
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,440评论 1赞 290
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,518评论 2赞 309
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,305评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,190评论 3赞 312
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,550评论 3赞 298
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 28,880评论 0赞 17
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,152评论 1赞 250
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,451评论 2赞 341
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,637评论 2赞 335