北航教授李波：说AI会有低潮就是胡扯，这是人类长期的追求|界面新闻

这一轮所谓人工智能的高潮，和以往的几次都有所不同，那是因为其受到了产业界的极大关注和参与。而以前并不是这样。

当今世界是一个高度信息化的世界，甚至我们有一只脚已经踏入了智能化时代。而在我们日常交流和信息互动中，迅速发展的多媒体技术起到了至关重要的作用。

在日前结束的“2017中国多媒体大会”上，提出了“智能媒体，创新未来”的主题。会后，我们采访了大会主席、北京航空航天大学教授李波，就当前人工智能技术在多媒体中的应用以及二者相互促进展开对话。

多媒体（Multimedia）是数据的最主要的现形式。在计算机系统中，多媒体指文本、图形、图像、视频、声音、动画和影片等，在实际应用中，也可以多种媒体综合使用。多媒体的应用领域已涉足诸如安防、影视、娱乐、广告、艺术、教育、工程、商业及科研等诸多行业。

AI热起来，首先爆发在多媒体领域

多媒体技术是把信息技术与应用结合起来的核心技术。很多信息在现实生产和生活中的使用，都会涉及到声图文视频等，还有在我们常说的人机交互中，多媒体技术也都发挥着重要的作用。

当前这一轮的人工智能热起来，与多媒体关系很大，首先是深度学习用于语音识别，很大程度上提升了识别效果。其次是图像分析，对图像分类、人脸识别、以及图像检索等也有大幅度提升。这些都是AI与多媒体应用结合的表现。

另一方面，关于多媒体技术本身的发展。多媒体的数据量很大，其内容丰富多彩，理解难度大，它本身的内容分析就需要智能处理，目前多媒体处理正在朝着智能化方向发展。所以本次大会的主题里有一个叫做“智能媒体”，体现的就是这件事情。

关于主题中的“创新未来”，因为多媒体技术是一种与应用结合十分紧密的技术，所以说它必将在各行各业、方方面面发挥越来越重要的作用。大家目前听到的、看到的很多东西都是这样，比如无人驾驶系统，它首先要感知周围的场景，要有视觉技术支撑。又比如大家看到的机器人问询系统，它的核心在于语音识别、自然语言理解，也是以模拟人的听觉和语音处理来实现的。

所以说，多媒体技术的智能化对经济社会、生产生活的方方面面产生了重大影响，这也是另一个主题“创新未来”的由来。

图像识别和语音识别之外，有更多的AI应用在我们身边

首先呢，我们要区分人工智能和深度学习。人工智能是一种跨学科的、多学科交叉的技术，它在不同的应用行业对其的要求也有所区别。

现在所说的深度学习影响很大，它最早是在语音和图像识别取得突破。但是，深度学习只是其中一种技术，人工智能还有很多其他的技术，远远不只深度学习这种技术，例如数据分析、模式识别、智能控制等，也都是属于人工智能技术的范畴。

例如数据内容分析方面的技术，在金融行业的风控、在股票市场的监管、在电信行业的反欺诈、在智慧物流的调度等方面，也都在发挥重要的智能作用。此外，在工业生产过程中，例如各种复杂调度、零件装配、故障检测等，也都用到很多人工智能技术做支撑。

AI技术本身并没有落与不落，退潮之后也没有裸泳者

常说人工智能有“三起两落”，现在正处于第三次“起”的阶段，那将来还会有第三次的“落”吗？如果有，哪些技术和应用会成为退潮之后的裸泳者？

人工智能为什么会有所谓的“三起两落”？因为人来一直在不断地拓展自己的智力，在追求更高更大的目标，并用于方方面面。

人类发明了车辆，让我们可以跑的更快；发明制造了飞机，让我们可以飞上天空。

所以说，人工智能的起落过程并没有什么值得担忧的，它只是人来在追求更高目标过程中正常的阶段性体现。另外，落与不落，只是发展状况的一种相对说法。

但是，这一轮所谓的人工智能高潮，和以往几次都有所不同。为什么呢？因为本轮的人工智能之所以这么热，那是因为其所处的环境有了本质的变化，并受到产业界的极大关注和参与，而前两轮并不是这样。

虽然从第二轮开始，产业界对智能系统开始逐步重视，但相比这一轮来说，重视程度远远不及，并没有现在的普及和全面，对普通老百姓的工作和生活的影响也远不如现在这么大。原因是什么？首先是现在的环境不一样了，现在是互联网时代的快速发展，另外是在大数据的背景下，再加上计算系统的高性能化（现在普通手机的计算性能抵得上以前的一台大型计算机），使得这一轮人工智能在某些应用方面可以做的很实，真正体现较高的智能特征。

当然，由于各个行业之间千差万别，其对人工智能技术的需求不尽相同，所以也使得人工智能对具体行业的影响各有不同。比如说对我们的听、说、写等相关度比较高的，以及与大数据联系紧密的行业，影响就非常大；而对于其他的行业（需要做综合的决策，而数据量又不够多），影响可能就会相对较小。

但即使是人工智能不那么热的时候，也不能说AI技术就没用了。事实上，人工智能已经悄然进入我们生活的方方面面，在潜移默化中发挥作用并影响世界。

只要人类追求智能、追求更高目标的决心不变，人工智能的高潮就会一直存在且持续下去。

数据驱动和知识驱动相结合的思维方式，是未来AI的目标

人类思维是一种综合的思维，来自两个方面：一方面是来自数据驱动的学习，通过数据在人脑中的不断抽象，就会形成高一层的语义。也就说，基于深度学习的智能，更多的就表现在这个方面。

另一方面，是知识驱动展现的智能。人类的思考是有目的的，在同样条件下，出于不同的目的，思考的结论可能不同；所以在同一个场景里，今天和昨天可关注的事不同。

原因是什么？因为我们的目的不一样。也就是说，人类思考同样存在至上而下的目标驱动；在展现智能方面，也存在利用高层知识去影响分析理解，这就是所谓的知识驱动。

在复杂的应用中，数据驱动和知识驱动都会存在，这样才能展现高水平的智能，所以说这两方面都是需要的。在我们常说的小样本分析，更需要知识驱动发挥作用。

在数据不足时，人类依靠经验也能实现正确的判断和思维；这说明机器也需要借鉴其他领域学习的知识，提高小数据或小样本下的学习效果，目前在这方面还存在着很多不足和缺陷，需要深入系统的研究。

现在的摄像设备更多是在被动采图，未来将要实现主动视觉

在视觉这件事情上，人类的视觉范畴比我们目前见到的图像和视频的范畴更加广泛。人类的视觉能感受到客观世界的方方面面，而我们在客观世界里能见到的物理现象是很多的，有声光电热、位置、方向、速度等等。

但目前的摄像头只能做到被动感知。直白的说，就是你让摄像头照什么，它就会照什么。而人类不是这样，当人类在思考需要什么之后，自己就会去主动获取什么。

举个例子，在同一个场景里，人类看到了一辆汽车。如果他要想把车牌看清楚，他就会调整视觉到车牌的位置；如果他想把驾驶员看清楚，他就会调整视觉到驾驶员的位置。

而我们的摄像头在这方面就做的比较差劲了，它并不会主动根据目标而调整自己的拍摄视觉。在主动去感知周围的场景和全方位、立体的感知周边环境等方面，做得很不够。

此外，现在大多用的是以光学摄像头为主的设备，但上面也说到了客观世界除了视觉还有很多方面，而这些仅凭光学摄像头是根本无法完全收集到的。所以我们将来会需要像激光、红外、雷达、GPS等结合起来的摄像设备。

将来计算机的感知系统应该是用综合型的视觉来完成，而不是现在被动式的采图。将来的摄像头也应该是一双很聪明的慧眼，类似甚至要超过人眼的功能。

未来的Tof深度相机，需要把更多信息整合到一起

在说到深度相机和传统相机区别的时候，首先要说一下我们的客观世界。

众所周知，我们的客观世界是三维的，我们在认识世界的时候，深度信息、位置信息等是非常重要的。传统相机的成像也好、视频也好，都是二维的信息，缺乏深度信息。

而深度相机是在传统相机的基础上，加上了深度信息，使得机器在分析周围场景的时候，多了一维信息，从而提高了分析的准确性。

同时，由于客观世界远远不止深度，还有很多像温度、湿度、速度、方向等等，所以未来的深度相机应该要把更多的信息也整合到一起。

不过，在深度信息的获取方面，如在特定场景、遮挡、距离等的情况下，准确感知深度就存在着较大的困难。

所以目前的应用也相对有限，像只在室内、仓库、游戏交互等短距离的场景下，才能有理想的效果，而在其他场景则会大打折扣。