是什么让计算机通过感官、学习和经验来了解世界,就像IBM所说的沃森那样?首先,大量的数据。
为了构建沃森在《危险边缘》节目中工作所需的知识体系,研究人员将其整合在一起2亿页包括字典和百科全书在内的结构化和非结构化的内容。当被问到一个问题时,沃森首先使用100多种算法进行分析,识别出任何名称、日期、地理位置或其他实体。它也检查短语结构和问题的语法,以更好地衡量什么是被问。总之,它使用数以百万计的逻辑规则来确定最佳答案。
+更多关于沃森的信息:沃森是名字,数据是游戏|在沃森丰富多彩的历史道路上的里程碑|在华生的帮助下,为我们的健康干杯+
今天,沃森经常被应用于新的领域,这意味着学习新的材料。研究人员首先将Word文档、pdf文档和web页面加载到Watson中,以构建其知识。然后再增加问答对来训练沃森。为了回答一个问题,沃森搜索了数百万份文件,找到了数千种可能的答案。在此过程中,它会收集证据,并使用评分算法对每件物品的质量进行评分。基于这一得分,它会对所有可能的答案进行排名,并给出最佳答案。下面的视频更详细地解释了这个过程。
随着时间的推移,沃森从它的经验中学习。它也会随着新信息的发布而自动更新。关于螺母和螺栓,华生使用IBM的DeepQA软件以及其他各种专有和开源技术。在其最初的形式中,包括Hadoop和Apache UIMA(非结构化信息管理体系结构)软件和一个由90台Power 750计算机组成的集群,其中总共包含2880个处理器内核。
如今,沃森是通过云交付的,但随着竞争的升温,IBM对潜在的细节保持沉默。
IBM Watson副总裁兼首席技术官Rob High表示:“我们的DeepQA推理和其他基础认知技能利用了深度学习技术、专有算法、开源内核和框架,这些技术利用了针对这些工作负载进行优化的硬件技术。”