视点！能听懂口音的开源语音系统来了：OpenAI出品支持99种语言_科技讯

搜索

视点！能听懂口音的开源语音系统来了：OpenAI出品支持99种语言

2022-09-24 19:33:58 来源：量子位

逼近人类水平的语音识别系统来了？没错，OpenAI新开源了一个名为「Whisper」的新语音识别系统，据称在英文语音识别方面拥有接近人类水平的鲁棒性和准确性！不仅如此，对于不同口音、专业术语的识别效果也是杠杠的！一经发布就在推特上收获4800+点赞，1000+转发。

访问：

Parallels Desktop 18 今年首次促销：限时75折

【资料图】

网友们纷纷对它意料之外的强大功能表示惊讶。

不仅是英文，有人用法国诗人波德莱尔的《恶之花》进行了语音测试，得到的文本几乎与原文一致。

OpenAI联合创始人&首席科学家Ilya Sutskever就表示：

终于有一个靠谱的语音识别系统能听懂我的口音了。

前任特斯拉人工智能总监Andrej Karpathy甚至转发评论：OpenAI正处于最好的状态中。

话不多说，让我们看看这个被“好评如潮”的语音系统究竟是怎么回事。

逼近人类水平的语音识别系统

首先，Whisper最大特点是它使用的超大规模训练集：

它使用从网络上收集的68万小时的多语言、多任务监督数据进行训练。

这导致数据集的内容非常多元化，涵盖了许多不同环境、不同录音设备下、不同语言的音频。

具体而言，65%(438218小时)是英语音频和匹配的英语文本，大约18%(125739小时)是非英语音频和英语文本，而最后17%(117113小时)则是非英语音频和相应的文本。

其中，非英语部分共包含98种不同语言。

不过，虽然音频质量的多样性可以帮助提高训练模型的鲁棒性，但转录文本质量的多样性并不是同样有益的。

初步检查显示，原始数据集中有大量不合格的、现有自动语音识别(ASR)系统生成的转录文本。

而以往的研究表明，在人工和机器混合生成的数据集上进行训练，会显著损害翻译系统的性能。

为了解决这个问题，研究团队开发了几种自动过滤方法来识别和删除低质量的数据源。

但值得一提的是，没有说话内容的片段会被留下，作为语音活动检测的训练数据。

其次，Whisper体系结构是一种简单的端到端方法，具体来说就是Transformer的编码器-解码器格式。

输入音频被分成30秒的片段，再转换成log-Mel谱图，然后传入编码器。

解码器被训练来预测相应的文本标题，并混合特殊标记，指示单一模型执行诸如语言识别、多语言语音转录和英语语音翻译等任务。

除此之外，研究人员还为Whisper设置了5种不同的型号，以下是各模型大致的内存需求和相对速度，使用者可以自行选择。

但需要注意的是，只有“large”型号支持多语言，前4个模型都只支持英语。

不过不需要担心，与其他模型相比，英文语音识别正是Whisper的核心竞争力。

实验结果证明，Whisper在Librispeech test-clean测试的错误率达到2.7%。

虽然这一数值与Wav2vec 2.0一样，但在零样本性能上，Whisper明显更稳健，平均误差减少了55%。

甚至零样本Whisper模型还缩小了与人类鲁棒性之间的差距。

可以看出，与人类Alec相比，LibriSpeech模型的错误率大约是人类的两倍，而Whisper模型的鲁棒性边界则包括Alec95%的置信区间。

研究团队

Whisper的研究团队来自OpenAI，共同一作有两位：Alec Radford、Jong Wook Kim。

Alec Radford，OpenAI的机器学习研究员，也是indico.io的联合创始人。

Jong Wook Kim，在纽约大学获得了音乐技术专业的博士学位，研究方向包括多模态深度学习和音乐理解，目前是OpenAI的研究人员。

值得一提的是，研究团队指出，虽然目前Whisper还没有实时功能，但它的运行速度和内存大小表明，在这一基础上搭建实时语音识别和翻译功能是可行的。

他们希望Whisper的高精度和易用性，将允许开发人员将语音接口添加到更广泛的应用程序中。

论文和GitHub链接附在文末，感兴趣的小伙伴们可以自取～

论文链接：

https://cdn.openai.com/papers/whisper.pdf

GitHub链接：

https://github.com/openai/whisper#approach

参考链接：

[1]https://colab.research.google.com/github/openai/whisper/blob/master/notebooks/LibriSpeech.ipynb

[2]https://techcrunch.com/2022/09/21/openai-open-sources-whisper-a-multilingual-speech-recognition-system/?guccounter

[3]https://news.ycombinator.com/item?id=32927360

[4]https://twitter.com/alecrad

[5]https://jongwook.kim/

关键词：人工智能能听懂口音的开源语音系统来了OpenAI出品

推荐

健康的肥胖不存在脂肪含量和全因死亡之间具有线性因果关系

从重庆医科大学附属第一医院获悉，该院内分泌科李启富教授团队基于基因分析探讨了脂肪含量与死亡风险的...

来源：科技日报 2022-09-23
与亚马逊Audible展开竞争 Spotify在美国推出有声读物服务

已在美国推出有声读物服务，此举欲与亚马逊的 Audible 展开竞争。Spotify 称，用户可在 Spotify Ap...

来源：TechWeb 2022-09-22
YouTube视频网站中“不感兴趣”按钮几乎没有任何作用类似相关视频还会出现

有一项新的研究发现，即使用户对 YouTube 中某些类型视频选择了不感兴趣，但是类似相关的视频还会出现...

来源：凤凰科技 2022-09-21
阿里巴巴将在核心科技上持续投入助力全球产业链供应链韧性与稳定

阿里巴巴集团董事会主席兼首席执行官张勇表示，国际地缘政治冲突加剧、逆全球化思潮涌现等因素给全球产...

来源：网易科技 2022-09-20
为获得税收抵免资格特斯拉打算让电池回归美国制造

知情人士称，特斯拉公司暂停了在德国生产电池芯的计划，因为该公司正在考虑获得美国电动汽车和电池制造...

来源：凤凰科技 2022-09-16
Instagram短视频功能发展正趋于停滞观看时长不及TikTok十分之一

几个月来 Instagram 一直在努力发展其短视频项目 Reels，但据一份内部报告显示，短视频功能的发展正...

来源：TechWeb 2022-09-15
5G高空瞭望智能“监督员”24小时在岗鹤壁打造5G智慧社区

守在大屏前，小区各处安全状况一览无余;不用跑医院，5G健康小屋帮你体检;在公园座椅休息时，可以同时充...

来源：人民邮电报 2022-09-13
筑牢网络安全防线中国工业互联网研究院设立“网络安全宣传角”

在第九届国家网络安全宣传周活动中，中国工业互联网研究院依托门户网站、微信公众号发布《2022网络安全...

来源：人民邮电报 2022-09-09
美国特斯拉车主提交了上千份投诉抱怨特斯拉维修问题频出

近期，美国特斯拉车主提交了上千份投诉，抱怨特斯拉维修问题频出，包括服务中心数量不足、更换零件库存...

来源：凤凰科技 2022-09-01
提升城镇一体化医疗服务能力安溪升级智慧医疗云

近日，福建安溪电信在成功打造全县医疗云服务的基础上，依托EC产业园医疗云平台，联手安溪卫健局开展医...

来源：人民邮电报 2022-08-31

直播更多》

2022无锡（北京）科技合作洽谈会74个重大项目签约总金额达到202.34亿

在近日举行的2022无锡(北京)科技合作洽...
2022无锡（北京）科技合作洽谈会74个重大项目签约总金额达到202.34亿

在近日举行的2022无锡(北京)科技合作洽...
构建网络安全保障体系天津滨海高新区在信创安全领域持续发力

9月上旬，天津滨海高新区内企业麒麟软件...
解放大量人力物力智慧渔政网络为执法插上科技翅膀

有人正在长江非法垂钓!近日，武汉市农业...
将加强政策引导广西管局推进自贸区工业企业工业互联网建设

近日，广西信息通信业与中国(广西)自由...
快手高级副总裁带队国际化业务一个多月对部门组织架构进行调整

快手高级副总裁马宏彬在带队国际化业务...

关闭

资讯更多》

焦点