“一天早上,我在睡衣里射杀了一头大象。我不知道他是怎么穿上我的睡衣的。”
这格劳乔·马克斯报价说明为什么它是很难让计算机理解人类。当编程的计算机理解人类,一个必须考虑的模糊性,模糊性和不确定性,以提炼人类语言的含义。
Facebook今天宣布,它现在可以通过Deep Text来实现这一点,deeptext是一个基于深度学习的文本理解引擎,运行一个神经网络,它可以以接近人类的精度理解每秒数千篇文章的文本内容,并使用20多种语言。
与消费者互动的电脑
消费者经常与计算机的互动与机器学习技术,了解人类语言的培训。问Siri的在旧金山最好的日本餐厅,和Siri的会给你的餐馆列表。或问谷歌有多少人住在伊利诺斯州Lisle,和谷歌将与来自美国人口普查的答案回答。这些智能系统解析喜欢上学的孩子的问题,使用语法图中的句子,然后回答与结构化数据集的问题:餐馆标记旧金山和日本或标记的莱尔,白细胞介素人数量清单,普查数据库。
人类语言的深层文本的理解是最先进的,因为它的深度了解包括意图,情绪和实体(例如,人物,地点,事件)。Facebook的工程师教深的文本具有非常大的无标签的数据集文字,教自己。换句话说,深文本编程通过观察人们如何沟通学习。有通过观察人类神经网络教学本身的其他例子。例如,自主轿车适合与神经网络控制的转向教本身转向通过观察人的驱动程序。
Facebook的工程师乔伊藏的与艾哈迈德Abdukader的分钟和半的视频是一个很好的介绍,该项目背后的灵感:
深文本使用无监督的机器学习来解释文章和评论的意义。监督和无监督的机器学习之间的区别取决于用来训练系统中的数据集。大多数学习机适用于编程,设计用于处理向量计算机和矩阵叫神经网络来了解标记的数据集。标记的数据集包括字,其意,比如是日本人或动物的图片标记的猫,狗,马,犀牛的餐馆在旧金山长列表等深文本适用的神经网络未标记的数据集,文章和评论的要明白自己的意思和感情。未标记的数据集是完全相同的是,刚刚的话,有时俚语,有时拼写错误,没有字典,并没有与其他词的预定义的关系。
词由字符解释,有时字符,使用机器学习系统流量和火炬[5]嵌入每一个字的彼此之间的关系来训练神经网络。深文本神经网络可以被认为是其中所有的字被悬浮着多个指针或载体链接到换句话说,以限定一个较大的空间其语义的关系。该过程被称为嵌入看跌期权相关的词,如兄弟和兄弟,彼此靠近,它可以用来消除了句“我喜欢黑莓”是否指的是水果或智能手机。
+有关网络世界的更多足球竞猜app软件信息:Facebook告诉B2C商家:我感觉到你的移动痛苦+
神经网络提取句子从与其他词的话接近的意思。使用Word的嵌入,深文本也可以理解跨多种语言相同的语义,尽管在表面形式不同。例如,英文形式“生日快乐”和西班牙“费利斯cumpleaños”应该是非常接近对方在公共嵌入空间。通过映射的单词和短语到一个共同的嵌入空间,深文本能够建立模型,是与语言无关的。
神经网络应用到中度评论
Facebook正在考虑应用深度文本来更好地个性化评论。为了更好地理解评论的价值和挑战,我采访了麻省理工学院研究科学家、前普利策奖得主波士顿环球报记者马特·卡罗尔。
卡罗尔总结了当今培养媒体评论的最先进方法:“每一家媒体公司都在与评论抗争,导致一些人把评论放在一起;然而,它们是与读者沟通的最佳方式。但培养这些对话,防止巨魔接管是劳动密集型的。需要有人和软件才能使这些对话对读者和出版商有价值。”
随着卡罗尔的考虑意见,今天的培育评论方法相比,深文本的潜在应用可能代表类似于从手工耕作与拖拉机耕作移位生产率的提高。
名人和公众人物使用Facebook开始与公众对话。这些对话往往得出的意见数百,甚至数千。查找多语言最相关的评论,同时保持质量的评论是一个挑战。深文字或许能够表面最相关的或者高品质的评论。
利用深层文本提高对图片帖子的理解
深度文本有可能通过更好地理解帖子来改善个性化Facebook体验,从而使用文本和图像等混合内容信号提取意图、情感和实体。例如,一个朋友的帖子中有一张她的新宝宝的照片和“第25天”的文字,这篇文章清楚地表明,她的目的是分享家庭新闻。
自动去除有害内容是另一个潜在的使用情况。它也可能帮助Facebook遵守其与欧盟就打击网络仇恨言论达成不具约束力的协议.
Facebook已经公布,和其他人写在它的使用机器学习,了解有关的图像,该公司的研究。这项研究是最好的概括了来自Facebook的人工智能研究中心主任亚·莱卡的在MIT技术评论的EmTech会议去年秋天的谈话摘录:
发现Facebook用户的兴趣
该模型可以在监督学习的基础上进行改进,以了解Facebook用户的兴趣。例如,它可以创建一个标记的映射用户兴趣的数据集。汤姆·史密斯对斯蒂芬·库里很感兴趣,因为他喜欢篮球,经常评论金州勇士队,他对库里的评价总是积极的。
大多数用户会被很多帖子在自己的Facebook新闻源不堪重负如果Facebook没有等级和优先考虑他们。了解用户的兴趣会更准确排名的帖子,让用户看到更多他们感兴趣的内容。
一个叫PageSpace有趣的分类已建成深文本,使用包含在数以百万计专用于特定主题或兴趣活动的Facebook页面的标记数据的庞大数据集。这组数据是没有得到很好的结构为策展的数据集。然而,深文本可以通过了解这些页面上的话,意向,情绪和实体创建一个标签的数据集。
等深文字应用
深度文本意图识别可以理解Facebook用户通过向其新闻源发送帖子来销售或购买某物的意图。作为对这一信号的回应,可以选择使用Facebook工具,使买卖变得更容易。
深文字也可以适用于Facebook的信使来识别用户的意图叫出租车。针对这一信号,深文本可以提供叫出租车。
开发开放AI社区内的深学习平台
因为人工智能社区的根基深深扎根于学术界和研究领域,它的运作非常透明。例如,由RonanCollobert撰写的Zhang和Abdulkader引用的论文,包括谷歌的JayWeston作为合著者。Facebook、Amazon、Google、IBM和Microsoft等大公司正率先采用人工智能和机器学习,推出了Amazon Echo、Google Home、IBM Watson和Microsoft Cortana等产品。这些公司的研究带头人,如谷歌的Geoff Hinton和Yann LeCun,经常保留他们在学术界的地位。莱肯是纽约大学和多伦多大学辛顿分校的终身教授。学术界和商业企业的研究者有着长期的合作历史。他们经常发表文章,并在会议上进行合作,大概是为了加速发展。
共享的研究超出了已发表的论文,扩展到了开源软件。大多数软件,如用于Deep Text项目的Torch,都是作为一个开源项目开发的,以加速和交叉传播其开发。
Facebook的将成为一个有趣的案例研究来解释机器学习的实施。它的AI开发三层包括Facebook的AI研究,应用机器学习和产品开发团队。开发基于机器学习的系统需要专门的知识。Facebook最近推出了机器学习的平台,FB学习者流程,它是为没有专门的人工智能专业知识的开发人员设计的,用于构建使用机器学习的产品。结果是:Facebook的开发者大军中有25%至少进行过机器学习实验。