语音识别:你的智能手机越来越智能

语音识别在台式机上从未大获成功，但终于在智能手机上大行其道。

通过Serdar Yegulalp

当我们还是孩子的时候，我和朋友们经常玩一个游戏，我们幻想《星际迷航》中的哪些技术最有可能在我们的有生之年成为现实世界的发明。运输机和曲速驱动器——不太可能。但是交流器，声控计算机和通用翻译器——很有可能。

当语音识别到达的电脑桌面上，这似乎是一个好主意 - 但对于大多数人来说，它不是为键盘和鼠标的替代品。现在语音识别技术正在投入使用在一个全新的环境：手机。而它的存在，进一步推动它可能永远不会在桌面上为首的方向它的使用和发展。

历史

语音识别最初是在20世纪50年代作为一种原始技术出现的，只不过是一种新奇的东西。在60年代早期，IBM的鞋柜设备可以识别16分所说的话，并能对简单的数学要求，如应对“三加四共”。

DragonDictate通过龙系统的也许是PC第一的语音识别程序，在80年代初期发布DOS电脑。它只能识别单个的单词，一次只能识别一个。随着时间的推移，它演变成了产品龙NaturallySpeaking（现在的版本11和Nuance通讯拥有），它可以录制在一个正常的对话语音和口语速度文本。

桌面语音识别有两大限制。首先，为了使程序具有高度的准确性，它必须经过训练来识别用户的说话模式。Windows Vista和Windows 7的的本地语音到文本的技术，和第三方产品，如龙NaturallySpeaking，仍然需要用户的培训期是有用的。

第二个限制是键盘的流行。大多数人已经在打字，不说话，等语音控制面临着同样的上坡障碍收养的习惯德沃夏克键盘布局。为什么要学习使用德沃夏克当普通的老QWERTY是现成的，并能正常工作？

Abhi Rele，高级产品经理微软的告诉我团队，负责开发在这一点上的多个环境语音识别技术，同意一组：“在桌面环境中，用户可以方便地访问其他互动方式 - 即键盘和鼠标 - 因此使用语音的主要有针对性的对演讲爱好者“。

什么语音控制计算需要更广泛的采用是两件事情 - 更好的出的最机顶盒使用和场地的讲话已经王，可以这么说。一个这样的场地一直在上升时间长：手机。

马特·雷维斯，在产品管理和营销副总裁Nuance的他这样解释了桌面和移动环境的区别:“桌面是一个静止的环境，它完全关注桌面用例，所以桌面的演讲遵循着这个任务流程:支持office应用程序、Web浏览、通信等等。在移动设备中，语音更直接地用于支持各种生活场景:忙碌的专业人士、外出玩乐、免提(通话)等等。”

Gartner分析师Tuong Nguyen也认为，语音在移动环境下更有意义。“从使用的角度来看，”他说，“语音识别在手持设备上的价值要大得多。它增加了用户友好、直观的输入方式。”

阮补充道，如果要说一份简单的声明性声明的另一种选择是挖掘一大堆菜单或者挣扎在屏幕上的小键盘上，这当然是正确的:“随着越来越多的采用纯触摸设备(没有物理按键)，语音识别被用于增强数据输入/输入。它还支持免提要求或立法。”

使其工作

语音识别的工作原理是建立口语的统计模型。谷歌的产品经理Amir Mane说:“为了识别语音，我们将输入的语音与语言的统计模型进行比较，并试图找到最接近的匹配——系统对用户说的话的最佳猜测。”

一种语言的统计模型需要存储大量是可行的。“（他们）必须覆盖所有的语言（音素）的基本声音，所有的话，所有的不同的方式的话可以在口语串在一起，”鬃毛说。最重要的是，有口音，在性别，年龄，地区差异的发音，单词选项（“苏打水”与“可乐”与“流行”）等。

鬃毛指出，谷歌语音搜索的统计模型需要三个要素：声学模型，语言模型和词库。“声学模型，采取演讲的录音，并说了些什么的转录，并使用两个创建手机的代表创造的 - 在一个给定的语言的所有词的基本组成部分，”他说。

语言模型涉及搞清楚什么话都可能效仿换句话说，并将它作为一种提高识别的准确率。“这个词‘帝国’之后，将单词‘国家’或‘罢工’[在帝国反击战]往往比它后面的话‘多样化’或‘番石榴’，”鬃毛解释。从现场收集的数据有助于不断提高语言模型和词库。

谷歌并不是唯一一家将识别数据众包的公司。语音识别应用Vlingo在用户手机上放置cookie，根据用户自己的反馈不断构建语音模型，并结合基于相似扬声器的模型。

在移动设备上

由于移动设备通常具有炫耀只的一小部分存储加工一台台式电脑的功耗，语音处理方面采取了同时在任何手机上出现不止一个基本形式。

该语音处理的斯普林格手册介绍了如何在21世纪初的手机，尽管他们的约束，可以进行编程，以识别不同的声音进行拨号位数按位数，并在一定程度上识别名称。主要问题是内存，所以大部分这些手机能够识别最多只有10个左右的名字在同一时间。但另一个问题引用了作者是功能相对较少使用，这可能是由于市场不佳的手机制造商的一部分。

由于内存和处理能力增加了，所以做了平均电话的识别能力。该三星原理图- p - 207发布于2005年的$ 99添加语音到文本听写和语音拨号。目前这一代的智能手机，与内存运行到几百兆，以及基于Flash-GB的存储空间，要少得多的限制。

另一个关键的进展是网络的速度。更快的无线网络的浪潮并提出了许多船只，包括最新一代的语音处理技术，通过使其能够工作卸载到远程服务器上。

阿米尔鬃毛，对产品经理谷歌语音搜索，解释了它是如何帮助谷歌的语音应用程序。他说:“由于所有处理方面的繁重工作都是在网络中[由谷歌的服务器]完成的，所以我们不太容易受到手持设备计算能力的限制。”

今天的应用

手机语音识别的最新技术使其不仅仅用于语音拨号。

语音功能实际上还包括语音拨号，这是手机上最早出现的功能之一。甚至许多基础的低端手机今天也有这样的功能;我的诺基亚翻盖手机(大约是2007年的复古款)就有这种功能——尽管它的认知度有点不太好，因为它的电话簿上有些不太常见的名字。

Gartner的阮注意到，语音功能的新品种有更高的开放性。“与其特定的语音命令来编程功能的，”他解释说，“该应用程序识别语音并执行相应的操作。更高端，更强大的设备已经使用这些应用程序更加可行的制造。”换句话说，而不是只能够使用短语“呼叫888-555-1212”，弹出一个电话号码，用户可以说“拨打妈妈”或“手机妈妈”来代替。

这使得像谷歌语音搜索这样的语音驱动应用程序更加实用。例如，如果你说“Tron Legacy movie times”，你会被带到一个按邮政编码或位置列出放映场次的页面——该应用程序不仅能识别该短语的上下文，还能从你的手机(当前位置)和网络(放映时间)提取信息。

该应用程序也有关于英语足够精明，自动做出一定的区别无需培训。如果我说“克鲁小丑乐团乐队”的程序得到它的权利 - 它甚至采用了乐队的特质拼写的搜索词本身，但它留下了变音符号。搜索“杂色的船员，”你得到的漫画。

也就是说，你离主流英语越远，谷歌语音识别的局限性就越明显。外国名字几乎是无望的。语音识别应用程序的另一个持续存在的问题是环境噪声，它对移动用户的影响比桌面用户更大。Nuance公司的Revis指出，“在嘈杂的户外环境下，识别精度高”是一个持续存在的问题。

听写自2005年那款三星手机以来，三星已经取得了长足的进步。该苹果手机的龙听写这款应用自然由Dragon提供动力，它允许用户口述从备忘录、电子邮件到Twitter更新的一切内容。龙的电子邮件提供了黑莓手机类似的功能。

对于Android手机，Nuance提供FlexT9，它结合了Dragon的听写功能和三种触摸式输入。还有一个Handcent短信应用程序，它与Android的native集成语音识别技术为了帮助您通过语音发送短信。

翻译已经可用的文本到文本多年了（例如，通过众所周知的宝贝鱼网站）。翻译 - 随你发言是不太这里，但它的到来拉近了许多。例如，Jibbigo为iPhone翻译单词，短语和简单的句子，允许双方交替发言。

未来发展方向

问几乎每个人都参与工程语音技术的下一个重要步骤是什么，他们通常会给你一个答案：自然语言处理。

雷维斯将此描述为“明白你的意思是什么系统，而不是你说什么 - ‘对话’互动模式，用户说他们想要的东西，而不对他们是如何说的任何约束。”他举了例子命令，或如信息的请求：“我在哪里可以找到一个尼康相机为下$ 100？”或“文本珍妮，我要为迟到20分钟”或“莫顿今晚接受预订三个人。”

“在口头对话提供自然语言处理是一个双重挑战，”谷歌的鬃毛说。“首先，你必须认识到的话，那么你必须提取的意思。”第一部分是变得更加容易，但第二个是仍深深难以捉摸：含义是上下文又滑，而且并不总是成功地被人类解析，无论是。

微软的RELE认为，通过手机提供的（比如指南针或GPS）的附加服务可以增加自然语言处理的有效性。所以你可以，他说，“计划吃饭，看电影，两个人通过分解任务，从各种来源，如日历，餐厅收视率，电影评论和位置使用的数据。”

此外，手机的服务可以被用于提供语音环境。“从用户的语音输入，与有关用户及其周围其他方式和传感器获得了智力一起，可以提供更丰富，更相关的结果，” RELE说。如果您刚刚使用Foursquare的在餐厅检查，例如，对于模棱两可的语音命令的偏见可以向之类的东西外出就餐，订房订票，得到一个出租车等倾斜。

多平台应用程序Vlingo的这家自称为“虚拟助理”的公司已经提供了一些类似的功能。它与OpenTable和Fandango这样的服务相结合，完成了大部分业务:餐厅预订、电影票预订等等。

另一个未来的面积阮看到语音识别改进是游戏。“[对话]可在游戏的不同维度添加到游戏中使用，”他说。因此，举例来说，你可以交付订单上尉柯克风格到飞船，或在一个谜审讯嫌疑人。

是你吗?

另一项已经实现的功能是针对个别用户自动定制识别。这是桌面语音识别所需的语音训练的免提版本。

例如，谷歌语音搜索的最新迭代有一个选择的功能，允许自定义语音配置文件要建立随着时间的用户。“当用户使用个性化识别‘在OPTS’，”鬃毛解释说，“我们让他们和他们的话语之间的联系，这使得我们建立的第一个基本的，个性化的识别模型。”

个性化识别并不意味着是一个银弹，但 - 对使语音识别更加无缝的仅仅是一个过渡性的一步。“我们认为个性化识别不是作为一个单一的解决方案，但随着一系列创新技术，这种是要来，”鬃毛说，谁也认为这种类型的，未来的改善“可能需要我们的用户更积极地参与。”

结论

手机已经有很多技术一个显着的孵化器和驱动器，无论是硬件和软件为基础的。到目前为止，加入讲话的混合导致了只有不断改进 - 如谷歌语音应用程序精出的现成的性能。

但这些进步正在逐渐为更重要的进步铺平道路，而移动技术为这些新技术的聚合提供了一个全新的舞台。下一步可能不会是一款能听懂你说的每句话的手机，而是一款理解程度足以让它变得更有用的手机。

Serdar Yegulalp已经为包括信息周刊和Windows杂志在内的各种出版物撰写关于计算机和信息技术的文章超过15年。

这篇文章，“语音识别:你的智能手机变得更智能”，最初发表于计算机世界。

加入对网络世界的社足球竞猜app软件区脸谱网和LinkedIn对最重要的话题发表评论。

IT薪资调查：结果是