IBM的技术更接近于人类语音识别

IBM:达到人类水平——即错误率与两个人说话的水平相当——一直是行业的最终目标

ibm-technology-moves-even-closer-to-human-speech-recognition-parity — DragonImages / iStock

IBM本周表示，其语音识别系统的错误率创下了5.5%的行业纪录，这一比例使得计算机理解人类对话的能力几乎和普通人一样。

根据IBM的数据，人的平权被认为是5.9%的单词错误率，但IBM与演讲和技术服务提供商Appen合作，重新评估了这个行业基准，认为人的平权比任何人都要低:5.1%。

+更多关于网络世界足球竞猜app软件:高德纳:人工智能、算法和智能软件是大型网络变革的核心+

长期以来，该行业的最终目标一直是达到人类说话的误差率，也就是达到两个人说话的误差率。其他业内人士也在和我们一起追求这一里程碑，有些人最近声称将达到5.9%，相当于人类的平等水平……但我们还没有开香槟庆祝。作为我们实现今天这一里程碑的过程的一部分，我们确定人类的平等率实际上低于迄今为止的任何水平——5.1%。博客在这个问题上。

然而，这种重新评估可能会激怒一些人10月微软人工智能研究小组表示它的语音识别系统已经达到了“人类同等”的水平，犯的错误比人类专业的转录员还要少。

“对于Switchboard部分的数据，专业转录员的错误率为5.9%，其中新认识的一对人讨论指定的话题，而对于CallHome部分，朋友和家人进行开放式谈话，错误率为11.3%。在这两种情况下，我们的自动化系统都建立了一种新的艺术水平，并超越了人类的基准。这标志着第一次有报道称人类在对话性语言中具有同等地位。纸．交换机是用于语音识别测试的标准会话语音和文本集。

5.9%的错误率与被要求抄录同一段对话的人的错误率大致相当，而且与行业标准的“交换台语音识别任务”微软相比，这是有史以来的最低记录在其网站上写道．

IBM的Saon写道:“我们还意识到，为整个行业的人的平等性找到一个标准的衡量标准，比看起来要复杂得多。除了SWITCHBOARD，另一个被称为“CallHome”的行业语料库提供了一组可以测试的不同的语言数据，这些数据是由家庭成员之间关于没有预先确定的话题的更口语化的对话创建的。对于机器来说，从CallHome数据中转录的对话比从SWITCHBOARD中转录的更有挑战性，这使得突破更难实现。(在这个语料库上，我们的错误率达到了10.3%，这是另一个行业记录，但在Appen的帮助下，在相同情况下，人类的表现为6.8%)。”

哥伦比亚大学计算机科学系教授兼主席Julia Hirschberg也在IBM的博客中评论了语音识别的挑战:

“像人类一样识别语言的能力是一个持续的挑战，因为人类的语言，尤其是在自发交谈时，是极其复杂的。定义人类的表现也很困难，因为人类理解他人语言的能力也各不相同。当我们比较自动识别和人类的表现时，将这两方面考虑在内是非常重要的:识别器的表现和人类对同一种语言的表现的估计方式，”她分享道。

语音识别的突破是经过几十年的研究语音识别，开始于20世纪70年代早期美国国防部高级研究计划局,微软写道。随着时间的推移，大多数主要的技术公司和许多研究机构都开发了语音识别技术，包括BBN，谷歌，微软，惠普和IBM。

看看其他热门故事:

Juniper产品开发主管辞职，公司重新组建工程团队

思科Talos警告新的Cryptolocker勒索软件活动

Extreme以1亿美元收购了Avaya的网络业务

思科加强了HyperFlex超收敛系统的功率、管理功能

美国法警警告防范双电话诈骗

阿瓦亚想离开旧金山，对49人队也不是很满意

思科警告NetFlow设备存在漏洞

思科贾斯珀发展物联网的范围，广度