耶和华说:“看啊!他们成为一样的人民,都是一样的语言……我们下去,在那里变乱他们的口音,使他们的语言彼此不通。”——嗯,相信故事你已经知道了:曾几何时,人类拥有共同语言,于是有人妄想建造通天之塔,以便与上帝直接对话,为了惩罚人类的傲慢与虚荣,上帝发表以上言论,导致人们无法沟通,人类计划失败,自此四散东西。
故事不足信。但试图消弭因地理割裂而生的语言障碍,则是人类一项古老夙愿。一百多年前,理想主义者柴门霍夫以印欧语系为基础,创建世界语,无奈由于缺乏文化和历史根基,祈望指引人类趋向世界大同的世界语,如今变成了不折不扣的“小语种”(据说使用者不足世界人口0.03%),多少有些无奈与讽刺。
嗯,面对于此,也许一个可行的解决路径是:寻求机器的帮助。就在几天之前,第53届ACL(国际计算语言学协会,TheAssociationforComputationalLinguistics)大会——这一在自然语言处理(NLP)领域世界上影响力最大的国际学术会议——首次在中国大陆举办。这本身已值得欣喜。而另外值得一提的是,在颁奖环节,由百度研发、最近风头正劲的小度机器人的出场,似乎让不少人窥探到了未来的影子:小度与嘉宾互动,当场将中文翻译成英文,提供了近乎“同声传译”的服务。而事实上,这并不是小度第一次“出台”,早在几个月前的中国电子信息技术年会论坛上,小度就担当主持,为人类伙伴提供多语翻译。
人类总会对那个“无国界”的世界怀有乡愁。而机器翻译——这种让人在直觉上感到理应拥有的技术,无疑拥有广阔应用前景,在一个宣称自由连接的移动互联时代,但凡涉及多语言应用场景,翻译都可谓入口。当然,在机器翻译的背后,则是科技巨头们对于人工智能的勃勃野心。
技术之梦
让机器“听懂”语言,进而帮助人类跨越语言鸿沟,是包括百度在内任何一家拥有恢弘野心的技术公司一直在试图解决的问题之一。但作为典型的多学科交叉技术,机器翻译涉及计算机、认知科学、语言学、信息论等学科,“听懂”实属不易。
现在回想,机器翻译的历史几乎与计算机的历史一样漫长。早在计算机诞生之初的1947年,研究者就提出了机器翻译的宏伟想象,之后数十年,几代科学家不断追求机器翻译的技术之梦,这些技术精英经历过激情与迷惘,从陷入僵局,到重燃希望:上世纪九十年代,机器翻译完成了从以规则为基础的方法到统计方法的蜕变,基于大数据加以分析以完善翻译系统,唤起了机器翻译的新纪元。
事实上,过去几十年,科学家一直在致力于开发能理解人类语言的系统,而过去几年,你或许有所耳闻的“深度神经网络技术”的出现,似乎是人类经历的又一次变革——通过模仿人脑运作方式,机器可以更具辨识力地识别语言。
而令人兴奋的是,拉近历史的尺度,最近一次的技术拐点也已发生。就在不久前,百度发布了融合统计和深度学习方法的在线翻译系统。简单地讲,这套系统借助海量计算机模拟的神经元,实现了类似人脑“理解语言,生成译文”的翻译方式,同时又结合了百度已有的统计机器翻译技术,让机器翻译的质量实现了某种跃迁。
具体而言,基于深度学习的翻译系统的核心,是一个拥有无数结点的深度神经网络。而非常有趣的是,如此庞大的系统在刚构建完成之后,如一个心存好奇的初生婴儿,不懂任何事情,它通过学习大量双语互译对照的句子,逐渐完善翻译技术。所以你可以想象,搭建神经网络这件事,似乎只有科技巨头们才有能力完成,拿百度来说,其利用得天独厚的庞大网页库资源,挖掘了堪称海量的双语句对,这些都可以成为系统的“学习教材”。
未来之路
非常值得一提的是,当我们谈及小度机器人的翻译技巧时,NLP(自然语言处理,NaturalLanguageProcessing)是一个无法绕开的技术名词,它也是ACL大会的核心议题。某种意义上,正是百度NLP的深度问答技术构建了小度机器人的“大脑”——从问句理解,信息提炼,再到生成答案与排序,多项NLP技术的相得益彰,才让小度的“智慧”成为可能。
简单地讲,NLP是旨在理解和处理人类语言的一个科学领域,也是计算机科学、人工智能和语言学的交叉学科。而事实上,机器翻译只是百度NLP技术最为重要的研究领域之一,它远非全部。不夸张地讲,无论是PC端还是移动端,也无论是令其起家的搜索引擎还是现在各种看起来未来感十足的新兴科技,NLP技术几乎用于所有百度产品——换句话说,它是帮助百度“进化得更聪明”的核心。
几乎可以肯定,在可以预见的未来,“搜索引擎”将不再仅仅作为一个按照用户检索意图查寻资料的工具,而是会日渐成为一个“智能主体”,每个人都可通过语音,图片,文字等方式灵活与机器交互,而这一切背后都需要仰仗NLP技术。
就拿百度翻译来说,百度翻译已先后推出了语音翻译,实物翻译,涂抹翻译等功能,将机器翻译技术与语音识别,图像识别,文字功能等相结合,完善各种移动场景下的应用体验。
嗯,让人类与计算机更加自由地交互,是人类几代计算机科学家的理想,而相信在未来,像小度机器人这样的“科技精灵”将会出现在各种需要人机交互的硬件和软件产品之中,成为一个人工智能的入口级产品。好吧,我知道,大多数人对于看似枯燥的技术本身并无兴趣,人们心头总会近乎于本能地产生疑惑:机器这么强,人类翻译会失业么?在我看来,坦率地讲,这并不是一个简单的“会”和“不会”的问题,这样的担心也为时尚早,但我至少知道一件事:任何心怀善意的研究者都不会单纯以“取代”作为科研的逻辑起点,而是为了让机器更好地帮助人类,大家只是在把眼前事做到极致的同时,对于未来抱有敬畏之心。
如今,包括百度、微软和谷歌在内,科技巨头们都在机器翻译这件事上集体发力,为人们提供了将梦想照进现实的无限可能——也许未来某日,人们再也不必在脑袋里塞入《银河系漫游指南》里的“巴别鱼”,所有人都可以毫无障碍地自由交谈。毕竟,如果说技术发展的底层逻辑是将全人类更好地连接在一起,形成一个巨大“村落”,那么语言也许就是最后一个技术壁垒。
但是,最后请注意,机器翻译无论怎样发展,也并不意味着“新东方们”即将破产。想象一下吧,你可以带着小度去国外旅行,去简单交流,这都没问题,但若你爱上一个外国姑娘,并希望共度一生……呵呵,依靠机器去谈恋爱,未免太过乏味了吧。
评论