正在阅读:

自然语言处理:前景广阔,道阻且长

扫一扫下载界面新闻APP

自然语言处理:前景广阔,道阻且长

阿里巴巴集团近日宣布,将联合富士康和日本软银,把机器人Pepper和机器人产业带到全球市场。而自然语言处理在人工智能领域中是一个重要方向,是关注计算机和人类自然语言之间相互作用的领域。那么这一领域的现状和发展前景怎么样呢?

阿里巴巴集团近日宣布,将联合富士康向日本软银集团旗下机器人控股子公司SBRH分别战略注资145亿日元。根据协议,三方将联合把机器人Pepper和机器人产业带到全球市场。

Pepper大约1米高,白色,可以用表情、动作、语言与人类交流,目前已经会使用4500个日语词汇。最值得一提的是,Pepper在交流时可变换语调。

近日,谷歌公布的一份研究报告显示,得益于谷歌最新的人工智能技术,将来机器人能回答用户的技术求援电话,还能与人类探讨人生的意义等话题。

自然语言处理在人工智能领域中是一个重要方向,是关注计算机和人类自然语言之间相互作用的领域。

就自然语言处理的现状和发展前景,凯盛汇请到了凯盛顾问、北京大学语言信息工程系副主任俞敬松做出了详细分析。

前景广阔,但不可高估

智能手机和平板电脑的广泛普及,让用户有机会在他们的“第二块屏幕”上搜索信息。除此之外,我们能看到还有很多地方都应用着自然语言处理技术。

俞敬松表示,目前最为人们熟知的就是苹果iPhone上的Siri。类似的智能语音处理器还有Google Now和微软的Coursera,这些都是现在已经投入使用的产品,在工业控制和银行等领域已经得到应用。

“大概2004年,在美国花旗银行以及通讯服务商T-Mobile已经采用语音服务,比如查询余额等简单业务。近两年国内也开始在服务业中使用自然语言处理技术处理简单的业务。单字语音的自然语言处理很早之前就可以实现;连续的长语音现在也相对比较成熟。”

这是一个非常前沿的技术。智能手机的开发还不是围绕它来进行。语音涉及了一系列人工智能方面的技术应用,来了解人们说话的动机,和当时的语境。这是非常具有挑战的环节。

俞敬松认为,目前自然语言处理虽然前景广阔,但是不能被高估,因为可靠性还很低,现阶段还不可以被运用到对精确性要求高的生产活动中。

“语音识别首先是将语音转化成文字,除了自然语言处理,还涉及到数据,我们称作结构 性查询。例如我想知道哪里可以买电冰箱。我说‘Where to buy refrigerator?’ 句中的‘Where to buy’对应到系统数据中是store, 然后系统再搜索包含冰箱的商店。这是目前很多公司都在做的,但是短期内不会有重大突破。”

凯盛汇制图

在谈到近期不会有颠覆性突破的原因时,俞敬松认为自然语言处理在语义和语用层次的差异需要大量世界知识的积累,也就是世界知识图谱。

“在把任何一种自然语言转化成结构性查询的过程中都要依靠世界知识。有些语言背后包 含的意义无法从字面意思被机器识别。这是自然语言处理面临的主要问题。比如我问‘你是硕士毕业还是博士毕业?’表面上是在问学历,但其实这个问题可能隐含 的意思是‘你多大了?’这就涉及到语用环境了。”

凯盛汇制图

俞敬松表示,现在国外很多大公司已经在世界知识图谱方面做了大量研究和投入,甚至国内一些创业公司也在尝试将世界知识提取出来整合进数据库中。

广泛应用,道阻且长

当谈到将来是不是大多数领域都要融入自然语言处理技术,俞敬松认为要将自然语言处理技术投入使用,还有相当一段距离。

“中文的复杂是从分词就开始的,断句和语调不同意思会完全不同。没有句法知识,世界知识,没有语用环境,分词的提取和分析是做不到的。分词的数据分析,浅层句法分析,深层句法分析,语义提取,甚至语用分析,这些步骤共同构成了自然语言处理的最终效果。”

俞敬松表示,在数学基础上和人类知识表达等关键方面,目前还没有一个可靠的终极算法。目前的工作只是对自然语言处理做出的概率近似。既然是近似,所以一定有失败的可能,只是失败的可能是多少。

“目前自然语言处理就是会数数,算概率。比如‘跑得快’的‘快’,因为之前有‘跑 得’这个语境,在语料库中统计出的规律自然得出应该是‘快’而不是‘筷子’的‘筷’或是其它的字。在这些概率分析完之后,找出最优解。而算出概率的概率数 据表是通过训练和语料得到的,语料需要长时间的大量积累。”

凯盛汇制图

在谈到自然语言处理是否会颠覆一些行业,比如翻译,作家等职业时,俞敬松表示自然语言处理只会提高人工效率,并不会完全替代。

“自然语言处理的未来一定是对日常生活带来很大帮助的技术发展方向。比如机器翻译,作为一个获取信息和知识的用途,人类译员的作用会大大下降。但是比如文学翻译,是完全不可能被机器替代的。只是工作效率可以通过机器翻译大大提高。整个自然语言处理的趋势都是如此。”

俞敬松认为,目前受制于计算机发展水平,数学工具,和人类认知能力,在一个决定性突破出现之前,现阶段只能致力于知识库体系的扩大和局部算法的更新。但是这不可能解决所有问题。

“目前国内的基础语料和研究还没有跟上。比如在美国有问答搜索引擎,但是中文的问答搜索引擎做得并不算好,基础的数据库和知识图谱都是英文做得更好。这和中文的意合语法有很大关系。自然语言处理将来会被广泛的使用于简单的服务中,这会是一个创业可以取得突破的方向。”

本文为转载内容,授权事宜请联系原著作权人。

评论

暂无评论哦,快来评价一下吧!

下载界面新闻

微信公众号

微博

自然语言处理:前景广阔,道阻且长

阿里巴巴集团近日宣布,将联合富士康和日本软银,把机器人Pepper和机器人产业带到全球市场。而自然语言处理在人工智能领域中是一个重要方向,是关注计算机和人类自然语言之间相互作用的领域。那么这一领域的现状和发展前景怎么样呢?

阿里巴巴集团近日宣布,将联合富士康向日本软银集团旗下机器人控股子公司SBRH分别战略注资145亿日元。根据协议,三方将联合把机器人Pepper和机器人产业带到全球市场。

Pepper大约1米高,白色,可以用表情、动作、语言与人类交流,目前已经会使用4500个日语词汇。最值得一提的是,Pepper在交流时可变换语调。

近日,谷歌公布的一份研究报告显示,得益于谷歌最新的人工智能技术,将来机器人能回答用户的技术求援电话,还能与人类探讨人生的意义等话题。

自然语言处理在人工智能领域中是一个重要方向,是关注计算机和人类自然语言之间相互作用的领域。

就自然语言处理的现状和发展前景,凯盛汇请到了凯盛顾问、北京大学语言信息工程系副主任俞敬松做出了详细分析。

前景广阔,但不可高估

智能手机和平板电脑的广泛普及,让用户有机会在他们的“第二块屏幕”上搜索信息。除此之外,我们能看到还有很多地方都应用着自然语言处理技术。

俞敬松表示,目前最为人们熟知的就是苹果iPhone上的Siri。类似的智能语音处理器还有Google Now和微软的Coursera,这些都是现在已经投入使用的产品,在工业控制和银行等领域已经得到应用。

“大概2004年,在美国花旗银行以及通讯服务商T-Mobile已经采用语音服务,比如查询余额等简单业务。近两年国内也开始在服务业中使用自然语言处理技术处理简单的业务。单字语音的自然语言处理很早之前就可以实现;连续的长语音现在也相对比较成熟。”

这是一个非常前沿的技术。智能手机的开发还不是围绕它来进行。语音涉及了一系列人工智能方面的技术应用,来了解人们说话的动机,和当时的语境。这是非常具有挑战的环节。

俞敬松认为,目前自然语言处理虽然前景广阔,但是不能被高估,因为可靠性还很低,现阶段还不可以被运用到对精确性要求高的生产活动中。

“语音识别首先是将语音转化成文字,除了自然语言处理,还涉及到数据,我们称作结构 性查询。例如我想知道哪里可以买电冰箱。我说‘Where to buy refrigerator?’ 句中的‘Where to buy’对应到系统数据中是store, 然后系统再搜索包含冰箱的商店。这是目前很多公司都在做的,但是短期内不会有重大突破。”

凯盛汇制图

在谈到近期不会有颠覆性突破的原因时,俞敬松认为自然语言处理在语义和语用层次的差异需要大量世界知识的积累,也就是世界知识图谱。

“在把任何一种自然语言转化成结构性查询的过程中都要依靠世界知识。有些语言背后包 含的意义无法从字面意思被机器识别。这是自然语言处理面临的主要问题。比如我问‘你是硕士毕业还是博士毕业?’表面上是在问学历,但其实这个问题可能隐含 的意思是‘你多大了?’这就涉及到语用环境了。”

凯盛汇制图

俞敬松表示,现在国外很多大公司已经在世界知识图谱方面做了大量研究和投入,甚至国内一些创业公司也在尝试将世界知识提取出来整合进数据库中。

广泛应用,道阻且长

当谈到将来是不是大多数领域都要融入自然语言处理技术,俞敬松认为要将自然语言处理技术投入使用,还有相当一段距离。

“中文的复杂是从分词就开始的,断句和语调不同意思会完全不同。没有句法知识,世界知识,没有语用环境,分词的提取和分析是做不到的。分词的数据分析,浅层句法分析,深层句法分析,语义提取,甚至语用分析,这些步骤共同构成了自然语言处理的最终效果。”

俞敬松表示,在数学基础上和人类知识表达等关键方面,目前还没有一个可靠的终极算法。目前的工作只是对自然语言处理做出的概率近似。既然是近似,所以一定有失败的可能,只是失败的可能是多少。

“目前自然语言处理就是会数数,算概率。比如‘跑得快’的‘快’,因为之前有‘跑 得’这个语境,在语料库中统计出的规律自然得出应该是‘快’而不是‘筷子’的‘筷’或是其它的字。在这些概率分析完之后,找出最优解。而算出概率的概率数 据表是通过训练和语料得到的,语料需要长时间的大量积累。”

凯盛汇制图

在谈到自然语言处理是否会颠覆一些行业,比如翻译,作家等职业时,俞敬松表示自然语言处理只会提高人工效率,并不会完全替代。

“自然语言处理的未来一定是对日常生活带来很大帮助的技术发展方向。比如机器翻译,作为一个获取信息和知识的用途,人类译员的作用会大大下降。但是比如文学翻译,是完全不可能被机器替代的。只是工作效率可以通过机器翻译大大提高。整个自然语言处理的趋势都是如此。”

俞敬松认为,目前受制于计算机发展水平,数学工具,和人类认知能力,在一个决定性突破出现之前,现阶段只能致力于知识库体系的扩大和局部算法的更新。但是这不可能解决所有问题。

“目前国内的基础语料和研究还没有跟上。比如在美国有问答搜索引擎,但是中文的问答搜索引擎做得并不算好,基础的数据库和知识图谱都是英文做得更好。这和中文的意合语法有很大关系。自然语言处理将来会被广泛的使用于简单的服务中,这会是一个创业可以取得突破的方向。”

本文为转载内容,授权事宜请联系原著作权人。