正在阅读:

为了提高语音识别准确率 搜狗研发了“唇语识别”

扫一扫下载界面新闻APP

为了提高语音识别准确率 搜狗研发了“唇语识别”

唇语技术未来可以用在车载、家居、机器人、安防等等领域。

图片来源:摄图网

在今年12月的第四届世界互联网大会上,搜狗首次对外演示了他们的“唇语识别”技术,搜狗希望,能在语音识别的基础上做多模态输入,以提升准确率。

公开资料显示,唇语识别是一项集机器视觉与自然语言处理于一体的技术,系统使用机器视觉技术,从图像中连续识别出人脸,判断其中正在说话的人,提取此人连续的口型变化特征;随即将连续变化的特征输入到唇语识别模型中,识别出讲话人口型对应的发音;随后根据识别出的发音,计算出可能性最大的自然语言语句。

搜狗的唇语识别技术诞生于其语音交互中心,该中心主要的研究方向在语音听写、语音交互、语音翻译。在最初,搜狗的语音交互团队原本想要找办法解决语音识别里的噪音问题,进而衍生出了做唇语识别的念头。

“唇语这件事情放到我们团队来说就是做多模态的输入。”搜狗语音交互中心语音技术部负责人陈伟介绍,“这包括了视觉和音频的结合,唇语是一个很好的补充。”

陈伟说的补充效果主要体现在两种场景下:

第一种场景是噪声环境。如果在相对安静的场景下,语音识别准确率能达到97%,但实际的车载、房间等场景下,语音识别的准确率会急遽下降。

此前,搜狗的语音交互团队也计划靠提升硬件来解决该问题,例如在做麦克风阵列的时候,增强语音信号,降低噪声。后来,他们又想到加一些多模态信息进来,也就有了现在的“唇语识别”。

陈伟提到一个心理学的实验麦格克效应,“当一个人和另外一个人交流的时候,看着他的嘴唇,同时听声音的时候这个准确率是最高的。”

第二种场景是摄像头下的语言获取。现阶段,大部分的场景下只有摄像头没有麦克风,摄像头获取的只是图像数据,很难知道现场这个人讲什么。

这也是目前搜狗语音交互团队想到,“唇语识别”可能会落地的两个场景。

实际上,对于唇语识别这项技术,早在2003年,英特尔公司曾推出过一款视听说识别系统的软件,电脑开发者可以在此基础上研制读懂“唇语”的计算机。除此之前,涉及唇语识别技术研发的企业还有谷歌、微软,海云数据等。

陈伟认为,这项技术真正有了突破是在谷歌。据New Scientist报道,牛津大学工程科学系与谷歌的DeepMind,从英国广播公司电视台截取了100,000个小视频,成功地开发出一个识别率达到46.8%的人工智能系统,远远超过了人工识别的12.4%准确率。

但陈伟没想明白为什么谷歌的唇语技术仅仅是秀了一些案例,而没有公开演示。但在他自己和团队的研究过程中发现唇语技术存在的几个难点。

其一,准确率很难达标,对于开放的集合准确率能达到50%已经算很好了,但实际是仍然错误百出;

其二,泛化能力,谷歌的唇语技术基于2010年到2016年的新闻访谈训练集的数据,训练集和测验集是同源的数据,准确率能得到保证的前提是在闭环上测试;

其三,响应速度,要有一个很低的延时,才能保证快速出结果,这就需要把模型做得很复杂,也多了很多折中的选择。

在上述三个难点中,陈伟认为最大的难点还是在于泛化性,“我们之前的数据都是来自新闻类节目,主持人的唇型发音都是经过了标准训练,但普通人发音是不标准的。后来,我们针对这个问题去录制了很多普通人的数据,把这些数据加进来之后,在普通人的泛化性上才得到很大的提升。”

据陈伟介绍,搜狗在乌镇上发布的唇语系统用了数千个小时的真实唇语数据,端到端的中文的唇语序列建模,同时基于搜狗已有的单元处理的技术,才保证了整个“唇语识别”的效果。

“就是在一个开放的口语测试级上,基本上可以保证50%-60%的准确率,在垂直场景下,准确率更高。”陈伟称。

陈伟认为,尽管目前唇语识别技术还不完善,但有非常多的场景可以落地。“唇语可以放在安防上,助残上,甚至一些电影上,未来的车载、家居、机器人怎么跟它结合也都是我们想做的。”

陈伟还透露,“可能是明年,我们计划就会有一些落地的项目。”

未经正式授权严禁转载本文,侵权必究。

搜狗

2.6k
  • 搜狗原CMO洪涛加盟王小川创立的大模型公司
  • 洪涛卸任北京搜狗网络技术有限公司法定代表人

评论

暂无评论哦,快来评价一下吧!

下载界面新闻

微信公众号

微博

为了提高语音识别准确率 搜狗研发了“唇语识别”

唇语技术未来可以用在车载、家居、机器人、安防等等领域。

图片来源:摄图网

在今年12月的第四届世界互联网大会上,搜狗首次对外演示了他们的“唇语识别”技术,搜狗希望,能在语音识别的基础上做多模态输入,以提升准确率。

公开资料显示,唇语识别是一项集机器视觉与自然语言处理于一体的技术,系统使用机器视觉技术,从图像中连续识别出人脸,判断其中正在说话的人,提取此人连续的口型变化特征;随即将连续变化的特征输入到唇语识别模型中,识别出讲话人口型对应的发音;随后根据识别出的发音,计算出可能性最大的自然语言语句。

搜狗的唇语识别技术诞生于其语音交互中心,该中心主要的研究方向在语音听写、语音交互、语音翻译。在最初,搜狗的语音交互团队原本想要找办法解决语音识别里的噪音问题,进而衍生出了做唇语识别的念头。

“唇语这件事情放到我们团队来说就是做多模态的输入。”搜狗语音交互中心语音技术部负责人陈伟介绍,“这包括了视觉和音频的结合,唇语是一个很好的补充。”

陈伟说的补充效果主要体现在两种场景下:

第一种场景是噪声环境。如果在相对安静的场景下,语音识别准确率能达到97%,但实际的车载、房间等场景下,语音识别的准确率会急遽下降。

此前,搜狗的语音交互团队也计划靠提升硬件来解决该问题,例如在做麦克风阵列的时候,增强语音信号,降低噪声。后来,他们又想到加一些多模态信息进来,也就有了现在的“唇语识别”。

陈伟提到一个心理学的实验麦格克效应,“当一个人和另外一个人交流的时候,看着他的嘴唇,同时听声音的时候这个准确率是最高的。”

第二种场景是摄像头下的语言获取。现阶段,大部分的场景下只有摄像头没有麦克风,摄像头获取的只是图像数据,很难知道现场这个人讲什么。

这也是目前搜狗语音交互团队想到,“唇语识别”可能会落地的两个场景。

实际上,对于唇语识别这项技术,早在2003年,英特尔公司曾推出过一款视听说识别系统的软件,电脑开发者可以在此基础上研制读懂“唇语”的计算机。除此之前,涉及唇语识别技术研发的企业还有谷歌、微软,海云数据等。

陈伟认为,这项技术真正有了突破是在谷歌。据New Scientist报道,牛津大学工程科学系与谷歌的DeepMind,从英国广播公司电视台截取了100,000个小视频,成功地开发出一个识别率达到46.8%的人工智能系统,远远超过了人工识别的12.4%准确率。

但陈伟没想明白为什么谷歌的唇语技术仅仅是秀了一些案例,而没有公开演示。但在他自己和团队的研究过程中发现唇语技术存在的几个难点。

其一,准确率很难达标,对于开放的集合准确率能达到50%已经算很好了,但实际是仍然错误百出;

其二,泛化能力,谷歌的唇语技术基于2010年到2016年的新闻访谈训练集的数据,训练集和测验集是同源的数据,准确率能得到保证的前提是在闭环上测试;

其三,响应速度,要有一个很低的延时,才能保证快速出结果,这就需要把模型做得很复杂,也多了很多折中的选择。

在上述三个难点中,陈伟认为最大的难点还是在于泛化性,“我们之前的数据都是来自新闻类节目,主持人的唇型发音都是经过了标准训练,但普通人发音是不标准的。后来,我们针对这个问题去录制了很多普通人的数据,把这些数据加进来之后,在普通人的泛化性上才得到很大的提升。”

据陈伟介绍,搜狗在乌镇上发布的唇语系统用了数千个小时的真实唇语数据,端到端的中文的唇语序列建模,同时基于搜狗已有的单元处理的技术,才保证了整个“唇语识别”的效果。

“就是在一个开放的口语测试级上,基本上可以保证50%-60%的准确率,在垂直场景下,准确率更高。”陈伟称。

陈伟认为,尽管目前唇语识别技术还不完善,但有非常多的场景可以落地。“唇语可以放在安防上,助残上,甚至一些电影上,未来的车载、家居、机器人怎么跟它结合也都是我们想做的。”

陈伟还透露,“可能是明年,我们计划就会有一些落地的项目。”

未经正式授权严禁转载本文,侵权必究。