IBM本周表示,其语音识别系统创造了5.5%的错误率的行业记录,这一比例让计算机几乎能像普通人一样理解人类的对话。
根据IBM人类的奇偶校验被认为是一个5.9%的字错误率,但IBM与Appen合作,演讲和技术服务提供商合作,重新评估了行业基准并确定人类平价低于任何人尚未实现的人:5.1%。
+更多关于网络世界足球竞猜app软件:高德纳:人工智能、算法和智能软件是重大网络变革的核心+
“达到人类平价 - 意味着与两个人说话的错误率 - 长期以来一直是最终的行业目标。行业中的其他人正在与我们一起追逐这个里程碑,其中一些最近声称达到了5.9%的人,相当于人类平价......但我们还没有弹出香槟。作为我们到达今天的里程碑的过程的一部分,我们确定人类平价实际上比任何人都取得了5.1%,“乔治·萨昂首席研究科学家在A中写道博客帖子就此主题而言。
然而,这种重新评估可能会激怒一些人10月微软人工智能研究小组表示它的语音识别系统已经达到“人类奇偶校验”,而不是人类职业转录师的误差。
专业转录员的错误率在Switchboard部分是5.9%,其中新认识的两个人讨论一个指定的话题,在CallHome部分是11.3%,在朋友和家人进行开放式对话。在这两种情况下,我们的自动化系统都建立了一个新的最先进水平,并超过了人类的基准。这标志着第一次有关于人类在交谈中平等的报道,”研究人员在他们的研究中写道纸.总机是语音识别测试中使用的会话语音和文本的标准集合。
5.9%的错误率与被要求抄录同一段对话的人的错误率大致相同,而且这是业界标准的Switchboard语音识别任务,微软的最低记录在其网站上写道.
IBM的Saon写道:“我们还意识到,在整个行业中寻找衡量人的平等的标准比看起来要复杂得多。除了SWITCHBOARD之外,另一个被称为“CallHome”的行业语料库提供了一套不同的可测试语言数据,这些数据是由家庭成员之间关于非预设话题的更口语化的对话创建的。对于机器来说,通过CallHome数据转录的对话比通过SWITCHBOARD转录的对话更具挑战性,这使得实现突破变得更加困难。(在这个语料库中,我们的错误率达到10.3%,这是另一项行业记录,但在Appen的帮助下,人类在相同情况下的表现为6.8%。)
同样来自IBM的博客,哥伦比亚大学计算机科学系教授兼主席Julia Hirschberg对语音识别的挑战发表了评论:
“像人类一样识别语言的能力是一个持续的挑战,因为人类的语言,尤其是在自发的对话中,是极其复杂的。定义人类的表现也很困难,因为人类理解他人言语的能力也各不相同。当我们比较自动识别和人类的表现时,非常重要的是要同时考虑这两点:识别器的表现和人类对同一段语音的表现的估计。”
在20世纪70年代初开始,在演讲识别数十年的研究之后,讲话识别突破达尔瓜,微软写道。随着时间的推移,大多数主要的技术公司和许多研究机构已经开发了语音识别技术,包括BBN,谷歌,微软,惠普和IBM。
查看这些其他热门故事: