正在阅读:

不用唤醒词就能激活,谷歌助手又要放大招

扫一扫下载界面新闻APP

不用唤醒词就能激活,谷歌助手又要放大招

为什么智能语音助手一定需求唤醒词呢?

文|三易生活

“Hi,Siri,放首歌“、”天猫精灵,讲个笑话“、“小爱同学,打开空调”,这些语句想必许多朋友都不会感到陌生。自从2011年Siri伴随iPhone 4S亮相后,语音助手如今也早已成为了智能手机产品中的标准配置,并且除了智能手机之外,包括智能音箱、智能电视等产品中这一功能的普及,也使得语音交互一度被业界认为或将成为未来的潮流。

然而如今语音助手却似乎风光不再,也越来越少有手机厂商会在发布会上提及这一功能,尽管这其中的原因尚不足外人道,但在公开场所使用时的不便,也被外界认为或许是语音助手“失宠”的关键所在。大家不妨设想一下,在公共交通工具、公司、餐厅等场景中,来一句“Hi,Siri”或“Hey Google”无疑有些让人尴尬。因此对于目前还没有大量使用智能家居硬件的用户来说,语音助手的存在略显鸡肋,而使用手机的习惯更多的则还停留在触屏交互上。

但如果不需要特定唤醒词就能让语音助手执行命令,则或许会让更多用户产生使用语音交互的想法。作为目前人工智能领域的领军者之一,有消息显示谷歌方面正在悄然实现不用唤醒词就能激活语音助手的操作。近日据9to5google的报道显示,在谷歌的应用程序中出现了一个代号为“Guacamole”的Google Assistant(谷歌助手)功能,其可以让用户执行时间敏感的语音助手“快速任务”,例如接听电话或是让手机静音,而这一切则无需用户先说一声“Hey Google”来唤醒语音助手。

事实上,需要特定词语来唤醒语音助手无论是在手机、智能音箱,还是电视上都是标配,就像每个人都有自己的名字一样,这个功能同样也需要对应的“称呼”。在某种程度上来说,唤醒词也成为了各家语音助手的招牌之一,是品牌形象的一个组成部分,通过在每次激活语音助手时所说出的唤醒词,消费者关于品牌的记忆也将在这日复一日的复读中被强化。

那么为什么智能语音助手一定需求唤醒词呢?这是因为在我们与Siri或小爱同学等语音助手进行对话前,它们首先需要被唤醒,从休眠进入工作状态,然后才能正常处理用户所发出的各种指令。相比于用按键唤醒或点击图标唤醒这一机制,使用特定的唤醒词来激活语音助手,无疑是最具科幻感的一种方式,同时这也是语音交互的起点。

语音唤醒被称之为keyword spotting(下文简称为KWS),即在连续语流中实时检测说话人的特定片段,这个特定片段就是唤醒词。通常如果不是手动禁用语音助手,后者作为系统级服务是会长时间驻留在后台的,然而语音助手作为一个需要大量算力支撑的功能,长时间开启势必会对SoC的APU会造成不小的压力,同时也就会大幅提升功耗。

面对这一问题,开发者想出的办法,就是通过专用于语音唤醒的低功耗协处理器来实时监听麦克风,一旦收到到类似“Hi,Siri”、“小爱同学”,以及“Hey Google”这类唤醒词后,就会将语音助手从休眠转换到工作状态。这一策略的好处除了降低对于续航的压力外,同时也会避免一直处于工作状态的语音助手,处理并不是命令的音频信息。

语音唤醒的难点,主要是低功耗与高效率需求之间的矛盾。想必大家已经发现,目前国内主流的智能语音助手唤醒词通常都是4个字,例如“天猫精灵”、“小爱同学”、“小度小度”,这是因为汉语发音与音节的关系,可以简单将字数理解为音节数。那么为什么唤醒词普遍是4音节,而不是大家更习惯的3音节或2音节呢?这是因为音节越短,语音中信息的含量就往往越少,语音助手理解的难度就越大,误唤醒就会越严重,并且如果音节再长就会从短语变成句子,降低交流体验。

既然唤醒词本身的设计都是有讲究,直接去掉唤醒词也就意味着未来谷歌助手需要直接理解用户的口语化表达方式,再进行针对性操作,而这其中则有不少的难关需要迈过。首先,用户实际的使用场景与实验室显然完全不同,所谓唤醒率高达99%往往是在实验室中得到的结果。想要在真实环境中实现无唤醒词,直接使用打电话、停止等口语化的操作,就要求更高精度的声纹识别,准确捕捉到复杂声学环境下真正用户的声音。

事实上,谷歌方面早在2018年就提出了一个名为“VoiceFilter”的技术,可以利用声纹识别技术实现定向人声分离,再通过卷积神经网络,搭配声纹识别编码器,在嘈杂乃至多人说话的情况下,准确捕捉到目标用户的声音,并辅以出色的端点检测模块,来判断声音的起点与结束点,最终从复杂的声学环境中准确地捕捉到相关词汇。

并且由于有唤醒词还能使得设备在未被使用语音助手时保持一定的低功耗,所以这对于谷歌的Guacamole来说,如果没有低功耗表现就将变得毫无意义。目前,语音助手实时监听麦克风声音的基础,就是需要协处理器的帮助,而相比于其他语音助手所使用的协处理器,谷歌想要在谷歌助手上实现无需唤醒词即可让语音助手工作的愿景,显然对于协处理器本身的要求会更高。

但好在谷歌在自研芯片领域已经有所建树,例如在Pixel2系列上搭载的专用图像处理芯片Pixel Visual Core,在Pixel3上配备的独立安全芯片Titan M,甚至有传言称其已与三星联手打造自研SoC的消息,也意味着谷歌在自家的Pixel系列机型上搭相关芯片并不是完全没有可能。

当然,大家暂时也无需对谷歌的Guacamole抱有太高期望,毕竟根据9to5google的说法,目前在内测阶段的Guacamole功能还较为简单,仅能支持例如“Stop”、 “Snooze”, 以及“Answer/decline the call”这类相对较为简单的命令。

相比于唤醒词这种将语音助手从被动休眠转为主动工作的模式,谷歌目前针对已经处于工作状态的手机,或是已经有电话接入等使用场景来进行的无唤醒词操作,显然应该算是“easy”模式。想要真正实现与语音助手的心意相通,不需要喊它的名字(唤醒词)就可以开始工作,现阶段来看依旧还是一件任重而道远的事情。

本文为转载内容,授权事宜请联系原著作权人。

评论

暂无评论哦,快来评价一下吧!

下载界面新闻

微信公众号

微博

不用唤醒词就能激活,谷歌助手又要放大招

为什么智能语音助手一定需求唤醒词呢?

文|三易生活

“Hi,Siri,放首歌“、”天猫精灵,讲个笑话“、“小爱同学,打开空调”,这些语句想必许多朋友都不会感到陌生。自从2011年Siri伴随iPhone 4S亮相后,语音助手如今也早已成为了智能手机产品中的标准配置,并且除了智能手机之外,包括智能音箱、智能电视等产品中这一功能的普及,也使得语音交互一度被业界认为或将成为未来的潮流。

然而如今语音助手却似乎风光不再,也越来越少有手机厂商会在发布会上提及这一功能,尽管这其中的原因尚不足外人道,但在公开场所使用时的不便,也被外界认为或许是语音助手“失宠”的关键所在。大家不妨设想一下,在公共交通工具、公司、餐厅等场景中,来一句“Hi,Siri”或“Hey Google”无疑有些让人尴尬。因此对于目前还没有大量使用智能家居硬件的用户来说,语音助手的存在略显鸡肋,而使用手机的习惯更多的则还停留在触屏交互上。

但如果不需要特定唤醒词就能让语音助手执行命令,则或许会让更多用户产生使用语音交互的想法。作为目前人工智能领域的领军者之一,有消息显示谷歌方面正在悄然实现不用唤醒词就能激活语音助手的操作。近日据9to5google的报道显示,在谷歌的应用程序中出现了一个代号为“Guacamole”的Google Assistant(谷歌助手)功能,其可以让用户执行时间敏感的语音助手“快速任务”,例如接听电话或是让手机静音,而这一切则无需用户先说一声“Hey Google”来唤醒语音助手。

事实上,需要特定词语来唤醒语音助手无论是在手机、智能音箱,还是电视上都是标配,就像每个人都有自己的名字一样,这个功能同样也需要对应的“称呼”。在某种程度上来说,唤醒词也成为了各家语音助手的招牌之一,是品牌形象的一个组成部分,通过在每次激活语音助手时所说出的唤醒词,消费者关于品牌的记忆也将在这日复一日的复读中被强化。

那么为什么智能语音助手一定需求唤醒词呢?这是因为在我们与Siri或小爱同学等语音助手进行对话前,它们首先需要被唤醒,从休眠进入工作状态,然后才能正常处理用户所发出的各种指令。相比于用按键唤醒或点击图标唤醒这一机制,使用特定的唤醒词来激活语音助手,无疑是最具科幻感的一种方式,同时这也是语音交互的起点。

语音唤醒被称之为keyword spotting(下文简称为KWS),即在连续语流中实时检测说话人的特定片段,这个特定片段就是唤醒词。通常如果不是手动禁用语音助手,后者作为系统级服务是会长时间驻留在后台的,然而语音助手作为一个需要大量算力支撑的功能,长时间开启势必会对SoC的APU会造成不小的压力,同时也就会大幅提升功耗。

面对这一问题,开发者想出的办法,就是通过专用于语音唤醒的低功耗协处理器来实时监听麦克风,一旦收到到类似“Hi,Siri”、“小爱同学”,以及“Hey Google”这类唤醒词后,就会将语音助手从休眠转换到工作状态。这一策略的好处除了降低对于续航的压力外,同时也会避免一直处于工作状态的语音助手,处理并不是命令的音频信息。

语音唤醒的难点,主要是低功耗与高效率需求之间的矛盾。想必大家已经发现,目前国内主流的智能语音助手唤醒词通常都是4个字,例如“天猫精灵”、“小爱同学”、“小度小度”,这是因为汉语发音与音节的关系,可以简单将字数理解为音节数。那么为什么唤醒词普遍是4音节,而不是大家更习惯的3音节或2音节呢?这是因为音节越短,语音中信息的含量就往往越少,语音助手理解的难度就越大,误唤醒就会越严重,并且如果音节再长就会从短语变成句子,降低交流体验。

既然唤醒词本身的设计都是有讲究,直接去掉唤醒词也就意味着未来谷歌助手需要直接理解用户的口语化表达方式,再进行针对性操作,而这其中则有不少的难关需要迈过。首先,用户实际的使用场景与实验室显然完全不同,所谓唤醒率高达99%往往是在实验室中得到的结果。想要在真实环境中实现无唤醒词,直接使用打电话、停止等口语化的操作,就要求更高精度的声纹识别,准确捕捉到复杂声学环境下真正用户的声音。

事实上,谷歌方面早在2018年就提出了一个名为“VoiceFilter”的技术,可以利用声纹识别技术实现定向人声分离,再通过卷积神经网络,搭配声纹识别编码器,在嘈杂乃至多人说话的情况下,准确捕捉到目标用户的声音,并辅以出色的端点检测模块,来判断声音的起点与结束点,最终从复杂的声学环境中准确地捕捉到相关词汇。

并且由于有唤醒词还能使得设备在未被使用语音助手时保持一定的低功耗,所以这对于谷歌的Guacamole来说,如果没有低功耗表现就将变得毫无意义。目前,语音助手实时监听麦克风声音的基础,就是需要协处理器的帮助,而相比于其他语音助手所使用的协处理器,谷歌想要在谷歌助手上实现无需唤醒词即可让语音助手工作的愿景,显然对于协处理器本身的要求会更高。

但好在谷歌在自研芯片领域已经有所建树,例如在Pixel2系列上搭载的专用图像处理芯片Pixel Visual Core,在Pixel3上配备的独立安全芯片Titan M,甚至有传言称其已与三星联手打造自研SoC的消息,也意味着谷歌在自家的Pixel系列机型上搭相关芯片并不是完全没有可能。

当然,大家暂时也无需对谷歌的Guacamole抱有太高期望,毕竟根据9to5google的说法,目前在内测阶段的Guacamole功能还较为简单,仅能支持例如“Stop”、 “Snooze”, 以及“Answer/decline the call”这类相对较为简单的命令。

相比于唤醒词这种将语音助手从被动休眠转为主动工作的模式,谷歌目前针对已经处于工作状态的手机,或是已经有电话接入等使用场景来进行的无唤醒词操作,显然应该算是“easy”模式。想要真正实现与语音助手的心意相通,不需要喊它的名字(唤醒词)就可以开始工作,现阶段来看依旧还是一件任重而道远的事情。

本文为转载内容,授权事宜请联系原著作权人。