正在阅读:

少说三个字母,成了Siri近十年最大升级

扫一扫下载界面新闻APP

少说三个字母,成了Siri近十年最大升级

技术上很简单,也可以很复杂。

文|雷科技  

大家平时有使用手机语音助手的习惯吗?

作为人工智能技术在我们日常生活中最直观的应用,手机的智能语音助手却总是以一副“人工智障”的面孔出现在大家身边。无论是外来的Alexa、Google Assistant、Siri还是国内的小爱、小度,由于其智能程度和真正的“人类”还差很长一段距离,这也导致我们能在网上找到许多“戏耍”语音助手,让它进入死锁不断循环的有趣场面。

而苹果的Siri,毫无疑问就是“人工智障”中的“佼佼者”。

对于Siri的“智能”程度,一句话来概括就是“甚至还不如联通的语音机器人”,毕竟即使是联通的机器客服,也只会在听到“机器人”这个关键词后播放语音回复,而苹果的Siri可是能在成语接龙中被“为所欲为”自己进入无限循环的存在。

不过从工作原理来说,Siri能有这样的“人工智障”表现其实也说得过去:Siri是目前手机语音助手中为数不多的可以选择不向苹果分享数据、甚至可以只在设备本地运行的语音助手。这些对用户信息的隐私处理让Siri成为了可能是“发展最慢”的语音助手——Siri的第一个初始版本诞生于2011年10月,诞生至今已经超越10年。但在部分冠军爱你功能上,Siri能实现的甚至还不如一些国内公司的“后起之辈”。

不过对于广大Siri用户来说,未来使用Siri的体验有望踏上一个全新的台阶,因为Siri终于要迎来一个“史诗级”的升级:

以后使用Siri时,不再需要喊“Hey Siri”了,直接喊Siri就可以了。

取消唤醒词有多难?

说实话,取消“Hey”直接“Siri”并不能从根本解决Siri不好用这个问题,无论你怎么缩减Siri的唤醒词,Siri能实现的功能依旧只有这么点:你依然没办法用一句话让Siri控制两个不同的智能家电,也不能阻止Siri用网页搜索的结果回复你提出的复杂问题,更不能像Google Assistant或小爱同学那样帮你自动接电话。

但从技术层面来看,取消“Hey”直接“Siri”背后的技术挑战其实并不简单。

可能有人认为取消“Hey”背后没什么单独,甚至有效降低了Siri识别用户语音所消耗的时间。如果我们只是简单把“Hey”从唤醒词中移除,那确实很简单。但在此之前,我们还需要考虑另一个问题:如何保证用户是真的需要唤醒语音助手?不能理解?那我们就要从语音助手唤醒词背后的选择条件开始说起了。怎样的短语才是一个“好的”语音唤醒词?从产品的角度来看,除了便于传播之外我们还要考虑两个从一定程度上互斥的因素:容易触发和不容易误触。

我们先说第一个“容易触发”的问题,顾名思义,语音助手的唤醒词一定要容易触发,具体来说就是这个唤醒词必须好读、不容易读错,同时也不能太长,最好让用户可以在一句话里一口气说完唤醒词和语音指令。

但另一方面,唤醒词也不能太短,更不能是日常生活中的高频常用词。试想一下如果Siri的触发词时“Hey”,那高频误触只会让Siri变得更加难用。更重要的是触发词必须具有“排他性”,即当用户说出“触发词”时,用户想且只想触发语音助手。亚马逊的Alexa就是语音助手在误触这方面的典型代表:

由于亚马逊语音助手Alexa名字过于大众,且智能设备的触发灵敏度过高,这些设备会对日常生活中所有的“Alexa”做出响应,甚至会被电影电视剧中包含Alexa的台词唤醒。这也是从唤醒词中去掉“Hey”背后的技术难点:修改唤醒词很容易,但在缩短唤醒词后避免语音助手误触,这并不简单。

智能的边界在哪里?

当然有人认为语音助手误触无所谓,毕竟误触也就手机上的事,把悬浮球划掉不就好了。但事实并非如此,语音助手触发词背后其实还藏着更长远的问题:智能助手的边界应该在哪里?

在各企业的设想中,智能助手就像是一个贴心的“管家”,这一点在智能家居品牌中尤为常见:作为用户的我们只要一开口,家里的电器就会自动工作。如果大家有见过TikTok上关于“智能生活”的设想,一定对这种生活“有所耳闻”。

但实际上,还需要依靠语音交互的智能家居已经是智能家居2.0时代的“过时产物”了,在智能家居3.0中,智能助手不再需要你的语音指令,就可以在幕后“观察”用户的状态并

“主动出击”调整智能家居的设置。在智能家居体系中,这个特性叫“无感化”,即用户不需要给出实质性指令(语音、文字或机械开关),智能家居系统就会根据用户的实际状况主动响应。

在技术成熟的情况下,一个优秀的智能家居系统能主动识别用户的真实场景。但对部分关注个人隐私的用户来说,这种时刻被机器、算法甚至屏幕背后的人观察的生活却一刻都不能忍受。这种体验从好的方面看叫“无感化”,但从另一面看,这仿佛就在“黑镜”中生活,是鱼缸中的“人类生活观察样本”。

以此次话题中心的Hey Siri为例:既然我们可以只用Siri来唤醒Siri,那这至少意味着两件事:

1. 手机时时刻刻在录音,以响应我的语音唤醒;

2. 手机在录音后还会经过处理,明白我说的话是什么意思,知道我什么时候想唤醒Siri,什么时候只是说话时提到。

而与其他智能助手不同的是,Siri在这里保持着高度的“克制”,即使Siri能做到刚刚提到的两件事,但设备端处理的机制保证录音数据只会保存在手机本地,不会上传到其他服务器中(飞行模式可以证明这一点);另外本地数据也在硬件加密设备中保存。

但从iPhone 4S的长按触发Siri到后来的语音触发Siri,再到手表的“抬腕”唤醒以及未来的“免Hey直接Siri”,可以预见的是智能语音助手必将进一步朝着“无感化”进发。至于未来的语音助手还能不能把持住功能与隐私之间的界限,以及绝大多数用户究竟担不担心自己被“大数据”,之前魅族的“三零手机”的市场回应已经给了我们的答案。

本文为转载内容,授权事宜请联系原著作权人。

评论

暂无评论哦,快来评价一下吧!

下载界面新闻

微信公众号

微博

少说三个字母,成了Siri近十年最大升级

技术上很简单,也可以很复杂。

文|雷科技  

大家平时有使用手机语音助手的习惯吗?

作为人工智能技术在我们日常生活中最直观的应用,手机的智能语音助手却总是以一副“人工智障”的面孔出现在大家身边。无论是外来的Alexa、Google Assistant、Siri还是国内的小爱、小度,由于其智能程度和真正的“人类”还差很长一段距离,这也导致我们能在网上找到许多“戏耍”语音助手,让它进入死锁不断循环的有趣场面。

而苹果的Siri,毫无疑问就是“人工智障”中的“佼佼者”。

对于Siri的“智能”程度,一句话来概括就是“甚至还不如联通的语音机器人”,毕竟即使是联通的机器客服,也只会在听到“机器人”这个关键词后播放语音回复,而苹果的Siri可是能在成语接龙中被“为所欲为”自己进入无限循环的存在。

不过从工作原理来说,Siri能有这样的“人工智障”表现其实也说得过去:Siri是目前手机语音助手中为数不多的可以选择不向苹果分享数据、甚至可以只在设备本地运行的语音助手。这些对用户信息的隐私处理让Siri成为了可能是“发展最慢”的语音助手——Siri的第一个初始版本诞生于2011年10月,诞生至今已经超越10年。但在部分冠军爱你功能上,Siri能实现的甚至还不如一些国内公司的“后起之辈”。

不过对于广大Siri用户来说,未来使用Siri的体验有望踏上一个全新的台阶,因为Siri终于要迎来一个“史诗级”的升级:

以后使用Siri时,不再需要喊“Hey Siri”了,直接喊Siri就可以了。

取消唤醒词有多难?

说实话,取消“Hey”直接“Siri”并不能从根本解决Siri不好用这个问题,无论你怎么缩减Siri的唤醒词,Siri能实现的功能依旧只有这么点:你依然没办法用一句话让Siri控制两个不同的智能家电,也不能阻止Siri用网页搜索的结果回复你提出的复杂问题,更不能像Google Assistant或小爱同学那样帮你自动接电话。

但从技术层面来看,取消“Hey”直接“Siri”背后的技术挑战其实并不简单。

可能有人认为取消“Hey”背后没什么单独,甚至有效降低了Siri识别用户语音所消耗的时间。如果我们只是简单把“Hey”从唤醒词中移除,那确实很简单。但在此之前,我们还需要考虑另一个问题:如何保证用户是真的需要唤醒语音助手?不能理解?那我们就要从语音助手唤醒词背后的选择条件开始说起了。怎样的短语才是一个“好的”语音唤醒词?从产品的角度来看,除了便于传播之外我们还要考虑两个从一定程度上互斥的因素:容易触发和不容易误触。

我们先说第一个“容易触发”的问题,顾名思义,语音助手的唤醒词一定要容易触发,具体来说就是这个唤醒词必须好读、不容易读错,同时也不能太长,最好让用户可以在一句话里一口气说完唤醒词和语音指令。

但另一方面,唤醒词也不能太短,更不能是日常生活中的高频常用词。试想一下如果Siri的触发词时“Hey”,那高频误触只会让Siri变得更加难用。更重要的是触发词必须具有“排他性”,即当用户说出“触发词”时,用户想且只想触发语音助手。亚马逊的Alexa就是语音助手在误触这方面的典型代表:

由于亚马逊语音助手Alexa名字过于大众,且智能设备的触发灵敏度过高,这些设备会对日常生活中所有的“Alexa”做出响应,甚至会被电影电视剧中包含Alexa的台词唤醒。这也是从唤醒词中去掉“Hey”背后的技术难点:修改唤醒词很容易,但在缩短唤醒词后避免语音助手误触,这并不简单。

智能的边界在哪里?

当然有人认为语音助手误触无所谓,毕竟误触也就手机上的事,把悬浮球划掉不就好了。但事实并非如此,语音助手触发词背后其实还藏着更长远的问题:智能助手的边界应该在哪里?

在各企业的设想中,智能助手就像是一个贴心的“管家”,这一点在智能家居品牌中尤为常见:作为用户的我们只要一开口,家里的电器就会自动工作。如果大家有见过TikTok上关于“智能生活”的设想,一定对这种生活“有所耳闻”。

但实际上,还需要依靠语音交互的智能家居已经是智能家居2.0时代的“过时产物”了,在智能家居3.0中,智能助手不再需要你的语音指令,就可以在幕后“观察”用户的状态并

“主动出击”调整智能家居的设置。在智能家居体系中,这个特性叫“无感化”,即用户不需要给出实质性指令(语音、文字或机械开关),智能家居系统就会根据用户的实际状况主动响应。

在技术成熟的情况下,一个优秀的智能家居系统能主动识别用户的真实场景。但对部分关注个人隐私的用户来说,这种时刻被机器、算法甚至屏幕背后的人观察的生活却一刻都不能忍受。这种体验从好的方面看叫“无感化”,但从另一面看,这仿佛就在“黑镜”中生活,是鱼缸中的“人类生活观察样本”。

以此次话题中心的Hey Siri为例:既然我们可以只用Siri来唤醒Siri,那这至少意味着两件事:

1. 手机时时刻刻在录音,以响应我的语音唤醒;

2. 手机在录音后还会经过处理,明白我说的话是什么意思,知道我什么时候想唤醒Siri,什么时候只是说话时提到。

而与其他智能助手不同的是,Siri在这里保持着高度的“克制”,即使Siri能做到刚刚提到的两件事,但设备端处理的机制保证录音数据只会保存在手机本地,不会上传到其他服务器中(飞行模式可以证明这一点);另外本地数据也在硬件加密设备中保存。

但从iPhone 4S的长按触发Siri到后来的语音触发Siri,再到手表的“抬腕”唤醒以及未来的“免Hey直接Siri”,可以预见的是智能语音助手必将进一步朝着“无感化”进发。至于未来的语音助手还能不能把持住功能与隐私之间的界限,以及绝大多数用户究竟担不担心自己被“大数据”,之前魅族的“三零手机”的市场回应已经给了我们的答案。

本文为转载内容,授权事宜请联系原著作权人。