微软收购NLP公司推进对话式AI进程，小娜将会更聪明了|界面新闻

智东西编 | Rinchy

5月20 日，微软宣布他们收购了一家位于加州伯克利的从事“对话式AI”研发的公司Semantic Machines，来推动Cortana的语音服务及Azure Bot等产品的服务。本次收购后，微软将在伯克利建立一个对话式AI中心，以推进 AI语音交互方面的发展。

二十多年来，微软一直在研究和寻求对话式AI基础算法的突破，如语音识别和自然语言理解。他们的目标是将电脑发展成为能够看见它周围的图景，听到并理解人类语言的终端。2016年，微软在对话式AI的两大方面有了新进展，分别为Bot的基础算法，和AI语音助手中的语义识别和自然语言理解的基础算法，这使得他们在对话式AI领域迈出了重大的一步。

微软打算通过本次对Semantic Machines的收购，将他们的语义机器技术与自身人工智能的技术相结合，将对话式AI的技术提升到更高的水平，给用户带来更加强大、自然和高效的体验。

微软除了看中Semantic Machines现有的技术以外，公司内部实力不凡的研发团队带来潜力，或许也是促成本次收购的一大原因。无论微软看中的是他们的技术还是团队，都显示出他们在发展对话式AI方面的决心。也展示出他们在与其他品牌，如三星的Bixby 2.0、谷歌的谷歌助理的激烈竞争中，不让步的姿态。

一、 Semantic Machines公司的核心技术

Semantic Machines公司之所以被微软收购，是因为他们开发出一种新型的适用于不同语言的技术平台，使得人工智能不仅能识别人类发出的命令，还能理解人类的对话。他们开发出的新平台代表了一种更加强大的范式，可以赋予计算机沟通、合作、理解目标和完成任务的能力。

而这种范式的实现，利用的是专有的机器学习的技术。目前公司的核心技术有：

1、对话引擎。Semantic Machines的对话引擎是一种用于建立基于语音和文本内对话，建立人类对话模型的新方法。引擎从自然输入的声音和文本中提取语义意图，然后生成一个对对话状态、文本和意图的自我学习框架。这个对话引擎的自然语言生成(NLG)技术基于用户的对话和文本而形成。

2、深度学习。Semantic Machines为从语义分析到对话状态，再到声音和语言的模型，NLG和语音合成这一系列关键功能来开发出新型的神经网络系统。

3、声音识别。公司的声音团队的研究员们来自于Dragon Systems, Voice Signal, Nuance 以及苹果Siri部门，都曾引领过ASR技术的发展。现在他们正在建立一个能够打破以往声音系统的局限性的新型语音平台。公司的ASR技术提供给对话算法独特的功能。

4、语音合成。这对于对话式算法来说至关重要。计算机的声音可以替代显示器，提供给使用者他们想要得到的信息。现有的语音合成技术，特别是韵律模型并不能够实现有效的对话时计算。公司利用广泛的NLP和机器学习，开发出一款专有的语音合成技术，首次实现对话式算法。

5、增强学习。这是他们的新平台的核心组成部分。增强学习的技术赋予系统不断从用户身上进行学习并且实时扩展能力的功能。这种反复地学习，使得系统提升了其对于语义的理解还有提高了学习新领域的知识的速度。

6、数据库。为了让机器能够学会说话和写作，他们正在建立世界上最大规模的训练语库。其专有的技术可以实现大规模数据的抓捕、自动注释和格式调整，为机器能够学习人类的行为提供了可能。所以，这个数据库是开发对话计算模型的关键。

7、多种语言架构。他们开发的对话式AI技术基于独立的语言框架。语音和语言的识别技术开始时都是使用的英文，但是也可以支持其他模式，比如类似普通话这样的语言。

8、开发工具。为了能够增强和定制他们的对话式AI的功能，他们正在创建一套可供公司内部和合作伙伴共同使用的工具。通过使用这些工具，开发者们能够把他们的对话式AI进行调整，运用到自己的场景中去，并且教授他们新的技能。

这一系列核心技术，构成了他们的对话式AI模型，通过建立数据库进行深度学习，再引入对话引擎、声音识别和语音合成，形成一套可适用于不同语言架构中的开发工具，这就是他们构建的平台正在做的事情。

微软通过收购该公司，掌握他们的核心技术，使用他们构建的这个完整的深度学习的平台，训练出对人类话语的语义理解更加透彻的程序，运用至他们的AI服务中，比如Cortana和Bot service，让他们与人类的沟通更加顺畅，提高产品的服务质量和水平。

二、Semantic Machines公司的团队

Semantic Machines之所以能够被微软收购，不仅是因为他们在技术上有所长，而且，它还拥有一支强大的潜力无限的研发团队。微软可以借这些人才，来推进对话式AI的更多发展。

公司联合创始人兼首席执行官Daniel Roth，并不是语音识别领域中的新人。十几年前，他创办了一家名为Voice Signal Technologies的公司，专门为手机开发语音识别与合成系统，苹果也使用了他们的这个技术。很快，他们便被Nuance Communication以3亿美元的价格收购。接着，他的第二次创业的小型激光技术方面的公司Shaser BioScience也被收购。本次，他回到了起初的语音领域，开始第三轮创业。

而且，在他的第一次创业的公司中的老同事Larry Gillick，也加入了这个新公司，作为首席技术执行官。Larry 在语音领域有超过30年的从业和研究经验。曾任带领Dragon Systems的团队，开发出第一款语音听写产品。后加入Daniel的Voice Signal Technologies公司，在公司被Nuance Communication收购后，又任新公司的移动设备研究副总裁。之后，加入苹果Siri语音助手团队。作为这个领域中的先行者和一直以来的实践者，Larry具有过硬的技术能力，也了解当下最主要的需求。

除了Larry之外，研究团队里还有许多出色的学者。比如，有加州伯克利分校的教授Dan Klein。他是自然语言处理领域内公认的大牛，曾是微软的教职研究员，还是Adap.tv的首席科学家，发表过100多篇关于NLP以及机器学习的论文。还有斯坦福大学的教授Percy Liang，他曾在谷歌工作过一年，是语义分析团队的创始人之一，还在顶尖的学术期刊中发表了60多篇论文。现在，他是这个公司的首席科学家及计算机科学助理教授。团队的其他研发人员，大多毕业于加州大学伯克利分校、斯坦福大学以及麻省理工学院，也曾在行业领先的公司内有过项目经验。

通过收购这家公司，微软在波士顿和伯克利附近增加了业务，同时增进了与许多优秀的对话式AI领域内的人才的距离。微软人工智能及研究事业部的首席技术执行官David Ku说：“微软将会基于伯克利强大的科研背景，去挖掘出更多的人才与技术。所以，他们将会在伯克利建立人才基地，通过基地的人才基础，来推动对话式AI的发展水平。”

这个人才中心将会同微软的其他对话中心一同工作，如Cortana Research部门、微软在澳大利亚墨尔本的RMIT大学开设的Cortana Intelligence Institute、以及位于华盛顿州雷德蒙德的微软AI和研究小组。

三、对话式AI在Cortana中的运用

Semantic Machines所研发出的对话式AI的技术在微软的产品中的运用，将会集中在Cortana、Xiaoice、Azure Bot Service和Microsoft Cognitive Services，还有微软用于客户服务的AI解决方案以及面向企业客户的其他对话计算技术等一系列产品上。那么，对话式AI技术将如何改变Cortana呢？

Cortana由微软语音产品团队从2009年开始研发，直到2013年Build大会上才亮相于公众。

起初，Cortana作为应用被整合进Windows10的系统里，而后微软把Windows8.1的通用Bing SmartSearch功能融入到Cortana中，用户可以通过发出命令，让它经由搜索引擎自动完成例如在餐馆网站上查找开放时间、显示网站的零售优惠券或者在地址栏中显示天气信息等任务。用户需要按下设备上的”搜索”按钮，才能唤醒它，然后用语音代替键盘发出命令。从2014年10月推出Lumia Denim手机系列以来，Cortana增加了倾听的功能，可以使用”Hey Cortana”的词组将它唤醒。

Cortana在历年的发展中，不断地增添新的功能。但是这些进展都集中于使用平台的扩展或者服务范围的扩大。2016年，微软将其整合进Skype中，作为一款机器人，它开始与人类进行对话。然而，它只能识别出人类对话中的关键字，进行简单的搜索引擎式的回应。这种对话也通常是命令的另一种表现形式，Cortana可以为用户提供订购食物、预定形成、录制视频信息并预约日历等回应或者说服务。

可见Cortana只是基于对于用户在pc端或者移动端留下的数据信息，以及整合搜索引擎或第三方的应用，来满足用户在日常生活和工作中提出的简单需求。但是在与用户沟通，特别是情感交互方面，较为欠缺。相较于当听到人类说出冒犯之词，会立即给人类打电话的小冰而言，Cortana对于人类话语的理解及交流的能力稍逊。

但是，David Ku说：“如果将Semantic Machines的技术融入了Cortana中，它将变得更加的聪明、灵活，可以用更少的词来完成更多的任务。”

“从最终用户的角度来看，我们将使用语义机器方法来创造新的功能，可以识别更复杂的语言变化。例如，您可以发出命令然后回头说‘不，我的意思是不要把它发送给我的老板，将它发送给我的老板的‘老板’，并让系统适应性地从上下文中分析出您的语义，这样您就可以不必从头开始来重复之前的内容。从用户的角度来看，它更具有弹性和适应性的语言理解与操作的能力。”David Ku在接受VentureBeat的采访时说道。

Cortana目前的语音应用程序是使用Azure Bot Service或者Microsoft Bot Framework来创建的，本次收购后，微软将Semantic Machines技术集成到Microsoft产品，开发人员能够通过深度学习来训练语音应用程序的新功能。

结语：左手技术右手人才微软推进对话式AI发展

微软通过收购Semantic Machines，不仅拥有了他们在语音识别和自然语言理解方面的技术，还收获了众多对话式AI的人才。而且这些人才将会吸引更多的同领域人才来，共同致力于推进这方面的技术。

从微软本次的收购行为看来，他们对人工智能的下一步规划中，让它们能够更快速精准地识别出人类语言中的意图，并作出更像人类的回应，而不是仅仅局限于功能性地完成任务，是非常重要一个发展方向。

前几日微软在北京举办的人工智能大会上，在对小冰的介绍中，他们说道：”在小冰的开发中，最重要的是信任。”而信任来源于理解，对于人工智能产品而言，理解，意味着在语音识别和自然语言理解方面的技术突破。微软，正在构建这种信任，创造出更多能够与人类顺利交流的产品与功能。

来源：VentureBeat；Semantic Machines