在乌镇互联网大会现场,微软全球执行副总裁沈向洋做客界面直播,对话界面联合创始人何力,介绍微软在人工智能和量子计算领域的最新进展。
直播嘉宾简介:
何力,界面CEO,联合创始人。1989年进入《中华工商时报》,拥有27年的财经媒体从业经历,创立了《经济观察报》、《第一财经周刊》等知名报刊杂志,也曾出任《财经》等知名杂志的主编。
沈向洋,现任微软全球执行副总裁,主管微软技术与研发部门,并主要负责推动公司中长期总体技术战略、策略以及前瞻性研究与开发工作。他负责管理全球领先的计算机科学研究机构微软研究院,及其与微软全体工程师团队的整合。1996年获卡内基梅隆大学计算机学院机器人专业博士学位。
以下是对话实录:
Q:欢迎大家来到我们这个界面乌镇互联网大会的这样一个直播下午茶的栏目。我们今天很高兴请到微软的全球的执行副总裁,同时也是微软负责研发业务的沈向洋博士。欢迎沈博士!
A:谢谢
Q:我们就是聊天了。沈博士是机器人专业的博士,互联网大会您每次都来啊,但是最近这一年或者是最近这一两年的时间,关于人工智能,关于语音识别技术,比原来要热。我今天来的路上还在想,人工智能这个词是我们人起的。这里面是不是这里面有个隐含的一个意思是“人工的智能”,但是我很好奇,这个智能,包括机器的数据处理 和学习能力,是不是到了一定程度上,它就能不完全依附在我们“人工”的语境下了。您怎么看这个人工智能现在这样一个趋势?
A:这人工智能这个词呢,实际上五十几年前就出现了,英语单词是Artificial Intelligence。Intelligence就是“智能”了,Artificial我们给翻译成为“人工”。当时之所以会出现“智能”这个词呢,主要就是在计算机出现以后呢,大家在想一个问题,就是这个计算机在计算能不能够产生一定的智能,那么因为人类呢,我们有Human Intelligence,人类的智能,所以从此就有了“人工智能”这个词。
那五十几年前的时候,大家也没有想到以后人工智能会发展到一个什么样的地步,所以就在考虑一个问题,计算机智能能不能像人类学习达到一个“人工智能”一定的水准,这里面是有一个这样的一个渊源。
Q:那他有没有可能,就是如果说啊,那比如说人的智慧的发展就涉及到说我们这个人脑,比如说我们的情感,我们的直觉,它究竟是个难以模拟的、神圣的、不可言状的东西呢,还是说他本质也是一个生物学,生物学、物理学或者生物物理学一种一种现象呢?那如果是个现象的话,那机器也可以这样啊。
A:您问这个问题有几个层次的问题,在计算刚开始的时候呢,对于搞计算机的人来说,就出现了一个事情叫“图灵测试”,英国的一个非常著名的科学家阿兰·麦席森·图灵当时就提出了一个说法,就说,什么叫做有智能,如果你问一个问题,人可以回答,机器也可以回答,然后再找人做一个评估,那如果评估的结果是分不清楚是人做的回答还是机器做的回答,那就说明这个机器的智能到达了一定地步。这是一个很粗浅的叫做“图灵测试”的一个例子。
那么在过去五十几年这样的一个过程当中呢,大家都在追求对于“智能”的定义是什么。其中有比较乐观的一派认为,人类能做的事情未来机器都可以做,只是时间的问题,但是这句话过去五十几年的时候已经在讲了,现在又有人讲了。但是现在年轻人不知道的是,AI,人工智能实际上已经经历了几个冬天。就是更早以前了,大家认为人工智能一定能做得到,就是你觉得直觉上一定能做得到。
包括我二十几年前博士毕业的时候,就是人工智能的冬天。冬天到什么地步呢,博士毕业出来找不到工作。今天就不一样了,今天一个小孩刚刚毕业能够写几行代码,能够训练个三五层的深度神经网,那工资就已经高得不得了了。我当然很为他们高兴了,我就想说就是我们这个过来人回过头来看的话,就是说人工智能它是经过了这样的历程,所以大家一直在不断的在追求,就是人工智能到底是什么,最后大家发现这个人工智能很难定义,因为很多时候呢,你以前觉得是智能了,但是今天又不那么智能了;你今天定义很智能的东西,10年以后就觉得不智能了,所以它有一个这样的问题。但是大家一定相信的是,在人工智能发展的道路上呢,可能有一件事情我们真的不是很明白,就是人脑究竟是怎么工作的。
如果说人工智能现在真的在做一件事情的话,就是人脑的延伸,人脑的模拟,但是总提来讲,就是脑科学的方面呢,大家还是知之甚少。
Q:所以就是说,机器能下棋,机器下棋甚至能够赢过我们。但是我还是不知道,他们是不是用的不同的策略。
A:对,你这个问题讲的对。
Q:机器智能是不是还是数据的产物。
A:其实大家还是在想一个问题,回到最本真的问题,智能这个东西到底是什么。有一个东西大家一步一步都在同意,机器慢慢在记忆、存储,很多方面机器都已经遥遥超过人类了。不要说现在这么强大的机器人,三十年前我们有计算器,计算这么简单的事情,你做任何简单的运算,加减乘除开始,到正弦余弦指数方程,人类早就算不过计算器了是不是。最近几年,说下棋的这个事情,为什么人类对下棋这个事情情有独钟呢,我们老是觉得一个人如果聪明了,棋就会下得好。
Q:打麻将也是。
A:打麻将打得好的人也很聪明。
Q:打麻将也有有策略有判断。
A:对的,但是打麻将很重要的一点就是你知道什么时候要输。比如讲这个香港人这个,女儿嫁给你之前,丈人丈母娘家先给你打一打麻将,一看你这打得很得意忘形的话,女儿就不嫁给你了。所以这个,所以这是另外一方面的智能了。所以这些智能方面的的话呢,下棋这件事情非常重要,最近呢,AlphaGo下围棋下赢了非常了不起了。其实在这之前呢,我以前有个师兄叫徐丰雄,就是卡内基梅隆的博士,他做的最了不起的事情就是做了深蓝,深蓝打败了国际象棋大师,
那么他当时最了不起的一件事情是他当时做了一个非常简单的、粗略的估计:为了要打败国际象棋世界冠军,大概需要多少层的计算。因为你下去,你每走一步,接下来你要搜索多大的空间,再走一步,还需要搜索多大的空间。当时十几年前的时候呢,打败象棋大师大家都觉很震惊,但还是觉得不那么智能。为什么呢,是因为相对来讲,大家看清了一个东西的时候,在这个计算上是怎么一步一步搜索的,到底有什么窍门它是怎么想的。但是最近AlphaGo这件事情让大家重新思考,新的在打败围棋高手的过程中呢,它实际上不是传统的硬性的计算,他中间就用了一个最近有突破性的东西,叫做深度学习,叫Deep Learning 。因为这个东西解释是解释不清楚的,你就感觉这个东西有一定的智能在里面。我有一个朋友是世界桥牌冠军,下棋这个事情发生了以后他就很紧张,问我说,是不是很快桥牌这个事情很快也干不过机器了。我没好意思跟他讲,但是这个就只是时间的问题。
Q:那比如,人如果故意走两步臭棋来误导机器,机器会做出怎样的判断?
A:完全有可能。我觉得就是所有故意走个臭棋,卖个关子,就是要看你做到几层计算的时候,你这个关子可以卖到。因为现在的计算机已经强大到,可以看出来你接下去的多少步。它就是说,你不管给我下什么棋,你不用跟我玩虚的,咱们一搜就可以搜你17层。就你走17步以后的棋我都全部给你弄出来了。当然,你要再计算到18层的话,那个运算量就更大了。
所以他今天呢,就是说这个机器学习更加有这样的能力,就是说相当大的这样一个,而且下棋这种所谓的这种游戏,是一种博弈论。在这个博弈论里面呢,最了不起一种的叫做Dominant Strategy(占优策略),就是不管你怎么想,我都是可以赢的,它是这样一个情况。
Q:其实说现在计算机的计算能力还有很大的一个提升空间。
A:对的。
Q:其实还有很多事情,从哲学上来讲,事物肯定是普遍联系的,比如说蝴蝶效应。我们知道会有效应,但是效应是什么,它是具体对应到我打一下喷嚏啊还是说蝴蝶震动一下翅膀,那个具体的事情。如果说随着计算能力的提高,是不是这些问题都能够计算它。
A:对,其实现在大家都觉得下棋啊,人工智能一类的东西都觉得很神奇,很了不起。这里面最关键,最根本的一个事情叫做计算。计算是我们之中最根本的事情。在计算这个事情上非常幸运的是,在过去的30年、40年,这个计算的能力基本上是指数级的在上升。都听说过摩尔定律,最简单的解释就是每18个月,计算能力就快一倍。这个再过3年就4倍,这个再往上长就会一直增加。和过去来比,我们就是百万级的的(计算能力的)增长,这是不得了的事情。就是因为计算速度的增强,让很多以前不可能的事情都实现了。现在有互联网存在的话,我们又多了很多很多数据。
今天的人工智能的话实际上来讲主要是有3股力量,把人工智能这件事情就推到一个程度,让大家觉得很多事情就发生了。这三股力量是海量的数据,越来越快的运算,再加上算法上的突破,就像我刚才讲到的深度学习,引领今天很多东西都进步得非常快。
Q:如果说着几个方面的能力都提高,比如说北京这样的有2000万人口的大城市,比如说他们的出行这个随机的行为,比如他们出行的数据完全的智能化,或者更加只能话,了解每个人的行为分布啊。
A:这些都是有非常强的规律在里面,我举个例子给你讲,Uber这家公司刚出来的时候我们就研判这家公司,我们当对它是非常敬仰,因为大家只是看到了这个东西只是个代步工具,现在大家可能更关注的是补贴,但是我们研判这个公司以后可以做到这个事情,他以后可以在某个街上的某个店,比如你卖报纸,你不用等顾客来买,我可以告诉你进多少报纸。
Q:明白。我想起了热力学第二定律,就是自发的过程都是混乱度增加的过程,而信息是消除混乱的,所以说信息是负熵。
A:“熵”这个概念是非常了不起的,它把信息量的问题讲清楚了。
Q:另外在一个方面就是语音的识别技术,微软是不是在这个方面有很多的突破,这个您可以给我们介绍一下。
A:计算机语音大家已经研究过五六十年了,这个当中经历过很多关键技术的突破,其中讲到语音一定要讲一下我的母校,卡内基梅隆,特别是我的导师,Raj Reddy虽然我没有跟他学语音我是跟他学计算机视觉的,但实际上他是因为在语音识别上的贡献得到图灵奖的。他是嘉宾,今天早上还被接见。语音有一件很好的地方就是它在一开始的时候就建标准库,有这个库大家就可以去测,测完了就高低立见。这么多年呢,有一种测试叫做Switchboard Data,就是两个人打电话,噪音比较大做一个测试。这么多年呢,人也去测,人测出来的误差率是6.9%,一直到五年前,计算机的误差率还都在20%左右。最近这一两年不得了,大概在一个月前,微软研究院在美国的同事做出一套系统,误差率已经比人类还要低了,6.5%的误差率。我觉得5年之内,语音识别肯定是计算机做的比人类好,我再延展一下,10年之内,对于物体的识别,比如这是茶杯,这是茶叶,也没有问题。
现在回到咱们一开始那个智能的问题,人能做的工作,你只要把它定义出来,剩下都是计算的问题,机器就会做的和人做的一样,甚至比人做的还要好。
Q:就是我们人本身具有的能力,就是人能听,机器慢慢地会比人听得更准,因为你也对这个方言语音,比如说语音识别和翻译,还不是一个方向。
A;这是一个非常有趣的问题啊,我曾经跟我的朋友,他不是学技术的,只是学社会科学的,对政治啊经济啊很有研究。他就跟我讨论,你看过去英语并不是一个主导的语言,英语变成主导语言是过去两三百年,特别是在美国出现以后。那现在问你一个问题,不管什么原因,我现在要颠覆英语,你觉得你应该设计一个什么语言,就能颠覆了。当然了我们讲中文,已经有十多亿人讲中文了。除去中文不讲,世界上还有什么语言可以这样。他说,这样的问题是错误的,正确的问法是,现在颠覆一个语言,不是用一个现有的语言去颠覆它,今天有一招是彻底颠覆它的,机器翻译,其实他讲的是非常有道理的。我们会敬仰一些人他懂外语,但是,懂一门外语的很多,像我们中文英文都可以讲一讲,但是懂两门外语的已经很少了。我可以很负责任地讲,今天我们微软做的机器翻译,我觉得任何一个号称会二外的人,我都把他拉过来,跟我机器翻译比一比,我跟你讲,99%他都是弄不过机器翻译的。每一种语言它都有很细微的东西,我们都讲了这么多年英语了,连英语都没有讲得那么好,所以我对机器翻译是非常认同,在微软投入了很多在做。
Q:在最终的商业化和产品表现形式方面会是怎样的呢,比如我的英文很差,就总是有没有一款最简单的产品,可能是耳机或者其他同步产品的,我这边说中文,那边就能翻译出来准确率大概是80%的,在商业化上有没有什么进展。
A:今天基本上已经有了,大家还在不断的完善。比如微软的话,有款App,就是做这个的。现在可能语音识别的效果还没有那么好,但是如果你愿意打,把中文打进去,那边英文就出来了。现在有去美国、去德国旅游的一批批大家已近基本上就这么做了。你去商店说不清楚,这边中文字写进来,那边德文就已经出来了。它就是这么个事情,但是你要是讲到产业的话呢,我自己是觉得,你做点小App的话,可以做到100亿的产业。如果你能做成整个一个生态系统的话,我觉得千亿甚至上万亿都是有可能的,因为机器翻译这个技术是完全可以做得到的。
Q:今天上午你还给领导展示了Hololens的全息眼镜,它现在跟我们热度很高的VR是同一个东西还是有很大区别呢?
A:这个问题问得很好,今天大家所做的VR这个东西呢,一般是有两个道路,一个是Virtual Reality,虚拟现实,另外一个是Augment Reality,增强现实,或者叫Mixed Reality,混合现实。它里面最大的不同在用户体验上,VR眼镜是把眼睛都遮住了,你看到的任何东西呢,跟你的现实世界一点关系都没有。
Q:那我到一个全黑的房子里也能达到这个效果啊。
A:是的,你还要三维的投影和渲染,投影到眼睛能看到的地方,这是传统的VR。那么AR呢,我们微软是要相信AR是要提供更丰富的用户体验,要面对一个更大的市场。那么AR眼镜你是可以看到真实的世界是什么,在真实的世界上,能通过光学投影,把虚拟的东西投到眼镜上,然后眼镜可以看见。比如说,我们现在有两个杯子,那我可以马上再投影第三个杯子在这儿。它是非常难做的一个战略技术,特别是我们设计的Hololens是整机的,它没有说拖条线啊。所有的运算、存储和通讯的能力全部在这里,它上面跑的也是Windows10的操作系统,很多应用就可以很方便地装上去了。
Q:比如它有什么应用呢?
A:我举几个例子。比如工业设计,我现在必须设计一个杯子,比方实际一个这样的杯子,原来这个杯子是这样的,然后我把他设计成一个虚拟的杯子。然后我想这个杯子的颜色不太好,我就换一种,马上就变成那样。甚至我说,这个地方是不是要高一点或者低一点,这个就是一个例子。我再举一个例子,很多做地产的朋友来找到我,他们的沙盘和样板间VR的技术就能做,比如说你在乌镇这里买个房子,5楼的房子和2楼的房子就是不一样,究竟那里不一样,边上的环境不一样。所以你用了Hololens能看到5楼的东西,更不用讲你用什么样的家具,户型是怎么样应该是怎么样的搭配方法。我自己很喜欢的应用是这样的,比如我不在家里,我太太跟我讲,有个什么东西坏掉了,然后我就戴上Hololens,然后跟她讲,不是边上那第几个螺丝嘛,你到哪里怎么样做,这个就是远程合作。有很多就是你现实的世界加上虚拟的世界混合在一起的话,看到的是完全不一样的世界。
Q:那还包括一些远程的手术等一些指导。
A:你讲医疗讲得很好。比如我们最近做了一套软件就是在Hololens上开发的,不是我们自己做的,是合作伙伴,美国一家著名大学的医学院开发的。这个医学院做的一套东西呢,就是说以前医院的人很难学的一门课,叫解剖学。它在讲人体里面是怎么样怎么样的不好弄。教科书都是两维的,三维的没有办法弄。那么怎么通过这种全息的影像把人体一层一层拆开,再合起来。你有机会可以试一下这个软件。
Q:今天还有个问题想要问您啊,如果人工智能发展到一定阶段,我们是不是也要像人类社会一样,也要给人工智能设立一套道德标准呢?
A:太需要了。事实上我们已经刚在做这样的事情了,在微软的话,专门成立了一个人工智能道德委员会。其实这个还是蛮严重的,我举一个比较简单的例子好了。以前就有人做过识别的一些例子了,美国有一些执法部门它已经有这样的软件,这个软件会怎么做呢,它会给你讲,这个人有多么像一个罪犯。结果很多人就去做测试,很多黑人看起来比较像,很多白人在上面看起来不太像。那就有很多人提出不同意见了。所以在设计很多人工智能类的产品的时候呢,我们从一开始就在想会发生什么问题,会产生什么样的一些状况,我们对社会上的道德规范要有更深刻的理解。这些问题都还很早,因为大家都还不是很有经验,但是我觉得永远要去思考这样的问题。这只是一个问题,我还有很多这样的例子。比如你做无人车,车一出状况的时候,往左边撞,会撞死一个小孩,往右边撞,撞死两个老人,那么问题是说,那么到底是要往左边走,还是往右边走?
如果有人在的时候,你说“唉呦,我慌了”,就做了一个错误决定,但是AI,人工智能,它所有东西都是可以编程的,所以这些问题就是都是程序。
Q:它的程序事先是按照规则设计的。
A:对对,所以就是有这样的一些问题,在新的环境下,新的情况下。
评论