春天来了,心情大好,你是否有想过为什么满目的春光会让你倍感愉悦?这里面是一系列非常复杂的生理反应过程,但是最首要的一步就是你对这个世界的感知,也就是对信息的获取。
人类获取的外界信息,主要是通过视觉、听觉、触觉、嗅觉和味觉等感觉器官得到的,其中80%的信息获取都来自视觉,而且视觉获取的信息也是最丰富最复杂的。
人的生理构造决定了我们能够看清楚并理解身边的场景,但是要让计算机看懂这个世界却是一件非常困难的事情,即使在很多人看来,现在的计算机技术已经足够先进了,但是要达到看懂并自主分析各种复杂信息的程度,还有很长的一段路要走,这就是计算机视觉这门学科要做的事情。
维基百科上对计算机视觉的解释是这样的:计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄像机和计算机代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图像处理,用计算机处理成为更适合人眼观察或传送给仪器检测的图像。
我们来看看计算机视觉这门学科是如何诞生又是如何发展至今的,可能不似有些学科那般跌宕起伏波澜壮阔,但也是在曲径通幽中乱花迷眼,在峰回路转时拨云见日。
说起计算机视觉这门学科,我们得把时针拨回到20世纪50年代,那个时候计算机视觉刚刚被划入了模式识别领域,主要集中在二维图像的分析和识别上,如光学字符识别、工件表面、显微图片和航空图片的分析和解释等。这个时期的学科划分非常乱,就连模式识别本身直到60年代才发展成为一门独立学科,当然这都得益于计算机的出现和人工智能的发展。新的技术总会带来很多新的想象力,群雄割据万马混战,各学科都趁机开疆拓土不断扩展新的分支,但最终还是会各自平息,尘埃落定。
经过几年按部就班的发展,到了60年代出现了计算机视觉发展史上的第一个小高潮,MIT的Roberts通过计算机程序从数字图像中提取诸如立方体、楔形体、棱柱体等多面体的三维结构,并对物体形状及物体的空间关系进行描述。
这是计算机视觉发展史上绝对值得浓墨重彩描述的一笔,Roberts的研究工作开创了以理解三维场景为目的的三维计算机视觉的研究,我们看到最革新的思潮席卷整个学界,带来了让人豁然开朗的新思路,同时也在奋力展现出它最振奋人心的美丽。我们看到科学如何在荆棘和沼泽中艰难地走来,也更加坚定了对胜利的信念。
Roberts对积木世界的创造性研究给人们以极大的启发,许多人相信,一旦由白色积木玩具组成的三维世界可以被理解,则可以推广到理解更复杂的三维场景。这是一个信号,标志着计算机视觉正式开始步入正轨,今天我们再谈论起那个时代,心中满怀的都是对那段岁月的憧憬和瞻仰。
一门学科一旦进入它的蓬勃发展时期,很快小高潮之后就会迎来它的春天。到了70年代,渐渐地已经出现了一些视觉应用系统。70年代中期,计算机视觉发展史上又一个标志性的事件发生了——麻省理工学院人工智能实验室正式开设“计算机视觉”课程,授课教师是著名的B. K. P. Horn教授。
MIT AI实验室吸引了国际上许多知名学者参与计算机视觉的理论、算法、系统设计的研究,David Marr教授就是其中的一位。他于1973年应邀在MIT AI实验室领导一个以博士生为主体的研究小组,1977年提出了不同于“积木世界”分析方法的计算视觉理论(computational vision),该理论的提出造就了一段史诗般壮丽的革命,计算机视觉的大厦从来都没有如此地令人叹为观止,熠熠生辉,这个划时代的成就在80年代成为了计算机视觉研究领域中一个光芒万丈的理论框架。
为了让各位对计算机视觉领域有一个更加深入的认知,我们有必要在此详述一下Marr的计算理论。
Marr 的视觉计算理论立足于计算机科学,系统地概括了心理生理学、神经生理学等方面取得的所有重要成果,是视觉研究中迄今为止最为完善的视觉理论。Marr 建立的视觉计算理论,使计算机视觉研究有了一个比较明确的体系,并大大推动了计算机视觉研究的发展。人们普遍认为,计算机视觉这门学科的形成与Marr的视觉理论有着密切的关系。在Marr看来,要从不同的层次去进行信息处理的研究,视觉过程主要包括三个阶段:
第一阶段将输入的原始图像进行处理,抽取图像中诸如角点、边缘、纹理、线条、边界等基本特征,这些特征的集合称为基元图;
第二阶段在以观测者为中心的坐标系中,由输入图像和基元图恢复场景可见部分的深度、法线方向、轮廓等,这些信息的包含了深度信息,但不是真正的物体三维表示,因此,称为二维半图;
第三阶段在以物体为中心的坐标系中,由输入图像、基元图、二维半图来恢复、表示和识别三维物体。
Marr理论是计算机视觉研究领域一朵盛开至今的鲜花,但该理论还是不够完善,任何美丽的鲜花都会有瑕疵,Marr理论也不例外,该理论的许多方面还有很多争议存在。比如:视觉处理框架基本上是自下而上,没有反馈;没有足够地重视知识的应用。
Marr理论给了我们研究计算机视觉许多珍贵的哲学思想和研究方法,同时也给计算机视觉研究领域创造了许多研究起点。虽然不够完善,但是Marr计算理论的城堡历经岁月磨砺风吹雨打而始终屹立不倒,反而更加凸显了它的伟大。
到了20世纪80年代,计算机视觉领域进入了前所未有的繁荣阶段,新概念、新方法、新理论不断涌现,比如,基于感知特征群的物体识别理论框架,主动视觉理论框架,视觉集成理论框架等。
这个时期,计算机视觉的研究已经经历了从实验室走向实际应用的发展阶段。随着计算机工业水平的提高,以及人工智能、并行处理和神经元网络等学科的飞速发展,更加促进了计算机视觉系统的实用化和涉足许多复杂视觉过程的研究。这是一段伟大而光荣的日子,是计算机视觉的黄金时代。
直到今天,历史上那些惊人的成就也在持续地发光发热,而这些成就的创造者们一定没有预料到,他们的贡献会对后世产生如此巨大的影响。近年来,得益于传感器技术的发展,再加上神经网络技术等新的手段和方法的运用,计算机视觉技术获得了迅猛的发展,并有力地促进了各方面的应用。目前,计算机视觉技术正在被广泛地应用于计算几何、计算机图形学、图像处理、机器人学等多个领域中。
作为一门综合性的学科,计算机视觉已经吸引了来自各个学科的研究者参与到对它的研究之中,其中包括计算机科学与工程、信号处理、物理学、应用数学和统计学、神经生理学和认知科学等。计算机视觉也是当前计算机科学中的一个非常活跃的领域,计算机视觉领域与图像处理、模式识别、投影几何、统计推断、统计学习等学科密切相关。近年来,与计算机图形学、三维表现、数字摄影测量等学科也发生了很强的联系。
作为解决人工智能问题最重要的一环,计算机视觉的重要性是无需赘言的。我们见证了它跌跌撞撞的发展史,目睹了它辉煌之后的平淡,平淡之后的崛起。而现在的计算机视觉领域正处于人工智能光环笼罩下最好的时代,不论是自动驾驶汽车还是智能家居、智慧城市,都赋予了计算机视觉技术新的历史使命,在机遇遍地的时代,等待计算机视觉的将会是全新的挑战。
计算机视觉技术已经历经了半个多世纪的发展,下一个冲击整个学界和产业界进而改变世界的革命何时到来,让我们拭目以待。
(本文参考了Jain A K,Duin Robert P W和Mao Jianchang的《Statistical pattern recognition : areview》,吴健康和肖锦玉的《计算机视觉基本理论和方法》,张华的《模式识别及其在计算机视觉中的实现》以及Wikipedia的相关词条。图片均来源于网络。)
评论