【视频】独家体验3款未上市智能音箱：三个女人的美貌声音和智商|界面新闻

智东西文 | 寓扬

编者按：最近数月，智能行业第一媒体智东西已深入智能音箱产业链，围绕智能语音交互入口之争和智能音箱之热，连发数篇深度报道，该系列还将覆盖业内数十家关键公司、核心操盘手和热点话题，本文为系列报道之一。

铛铛铛~ 智能音箱体验大PK第2季来了！！

在上月初，智东西推出了智能音箱体验大PK的第一季，使用了京东&科大讯飞家的叮咚音箱A1、阿里家的天猫精灵X1、Rokid家的若琪以及国外“老大哥”亚马逊Echo和谷歌Home，采用中外音箱“混战”的模式，让国内外的早期智能音箱“登台打擂”，同时也让我们感叹一下人类“智商”的伟大！

（从左依次为叮咚音箱A1、亚马逊Echo、谷歌Home、天猫精灵X1）

仅过去1个月，国内又有一波新品智能音箱落地，分别为雷军家的小米AI音箱、京东&科大讯飞家的叮咚2代，以及AI创企出门问问家的问问音箱。

目前小米AI音箱刚开始公测，发售日期尚无，叮咚2代作为叮咚音箱的最新产品也还没有上市，问问音箱也在众筹中。不好意思，现在这三款你都买不到！

是不是非常想体验最新一代的产品究竟如何？没问题！智东西本次智能音箱体验大PK就用这三款国内最新音箱，带你深度体验！顺便“剧透”一句，它们的“智商”正在不断提升。

一、各家音箱“登台亮相”

下面隆重介绍一下本期智能音箱体验大PK的三位“选手”，分别为小米家的“小米AI音箱”、京东&科大讯飞家的“叮咚2代”、出门问问家的“Tichome问问音箱”。

（从左依次为小米AI音箱、叮咚2代、问问音箱）

小米AI音箱是小米的首款智能音箱产品，于7月26日发布，并于8月22日正式开启公测，以299元的超低价格杀入市场，正式上市日期尚未确定。该音箱采用声智科技的6麦环形阵列，采用Nuance、思必驰等十家语音识别公司的技术，小米大脑、海知智能、三角兽等语义技能和猎户星空的语音合成技术，算是一个集百家之长的“语音小怪兽”。

（小米AI音箱）

叮咚2代是灵隆科技推出的第二代智能音箱产品，灵隆科技背后站着电商巨头京东和语音巨头科大讯飞。叮咚2代价格大约为799元（未上市），体积比叮咚A1小了不少，该款音箱仍然采用8麦环形阵列，并在顶部搭配一块LED屏，支持声纹识别和自定义唤醒词。

（叮咚2代）

问问音箱是出门问问推出的首款智能音箱，于8月24日发布，价格为999元，刚推出不久，产品也还在众筹中。问问音箱采用科胜讯的2麦克风阵列和联发科MT2601芯片。由于问问音箱还尚未量产，为了让大家一睹为快，本次智东西使用的是出门问问的工程机进行测试的，因此在稳定性上可能会存在一定问题，在此说明。

（问问音箱）

为了让他们更好的PK，我们从开箱感受、配网时间、远场唤醒率、噪声唤醒率、音质、端到端响应时间、语义理解、多轮交互、内容丰富性等方面进行实际体验，看看各家产品性能如何。

本次测试结果均来自特定环境，因此测试结果可能受网络环境等因素的制约，并且该结果不具有决定性的对比意义，仅供我们更深度的体验产品。

二、开箱感受

小米AI音箱咋一看就是一个缩小版的空气净化器Mini，采用塑料外壳，机身设计为立方形，并采用白色的配色，延续了小米产品的简洁时尚。在“三围”方面，三款音箱中小米音箱“身高”适中为21.16厘米，比问问音箱（24厘米）略低一点，但“体重”和叮咚2代大约相当，小米音箱为636克，叮咚2代为695克。

小米音箱的“昵称”为“小爱同学”，当你唤醒它时，它会甜甜的回应你一句“哎”！小爱同学就像一个邻家女孩，甜美的声音真是万千宅男的福利。

叮咚2代和谷歌Home的外观有一点相似，机身呈圆柱形，配以织网材质，顶部也是一个斜切面，并搭配了一块LED屏幕，配合声音进行个性化内容展示。轻轻点击它的LED屏就能够唤醒，手掌遮住屏幕就可以让它“休眠”，滑动屏幕外围一圈可以调节音量等，提升了交互体验。

而在声音方面，已经经过两年多积淀的叮咚音箱具备多种“发音人”可以选择，如“亲切随和的女声”、“甜美的童声”、“浑厚的男声”等。

相比另外两款音箱，问问音箱就显得身躯庞大了，直径为11厘米，“身高”为24厘米，体积也更加重，可能源于硬件配置上的不同。问问外观为椭圆形，采用羊毛混纺材料，手感细腻。顶部采用类似亚马逊Echo的音量旋钮配合阻尼滑动，并搭配36颗LED灯珠。

声音方面，问问音箱采用的更加类似于标准型的女声，所谓标准就类似于“欢迎收看新闻联播”这种。

三、一场略感吃惊的实测体验

话说7月底我们刚刚进行了一场5大智能音箱的实测体验，并对它们的“智商”深表担心。这次实测，我已经做好了“虐音箱虐到心累”的预期，结果让我大吃一惊，尽管只是过去了一个月，这一代音箱在“智商”和体验上已有明显提升。如果说上一代智能音箱算是1.0产品，那么这一代音箱就是2.0产品。

1、配网时间：大幅提升

联网是用户进行智能音箱操作的第一步，联网时间的长短直接影响用户体验。本次测试的配网时间包括“开始联网–输入WiFi密码—连接网络并成功”这样一个过程。

其中小米音箱采用蓝牙配网的模式，通过手机蓝牙，帮助音箱连接网络，整个过程耗时20.58秒。而问问音箱采用WiFi配网的模式，通过手机自动连接音箱的临时热点，进而帮助音箱联网，整个配网时间28.59秒，在WiFi配网中已是比较快的。

最后要说一说叮咚2代的配网了！相比叮咚A1的声波配网，叮咚2代则采用了蓝牙配网，相比叮咚A1将近1分钟的漫长配网“岁月”，叮咚2代竟然整个过程13.52秒！三款音箱中配网最快，令人感到眼前一亮。

总体来说，三款音箱的配网时间较上一代的配网时间有大幅提升，一方面相比天猫精灵和叮咚A1的声波配网，这一代产品更倾向蓝牙配网，此外在软硬件的配合上也有一定的优化。

2、唤醒率：叮咚2代亮了

唤醒是人机语音交互的第一步，即通过唤醒词（昵称）将设备唤醒进入工作状态，这一步直接影响用户后面的感受。本次唤醒率测试分为安静环境、噪音环境和超强噪音环境3个环节，分别在2米、4米、6米的距离进行唤醒率测试。

（1）安静环境下

（图为安静环境下5次测试未唤醒次数统计）

在安静环境下，我们分别在2米、4米、6米的位置，使用同一个声音大小（相对）对3款智能音箱分别测试5次。各家音箱在安静环境下表现都十分不错，仅只有小米音箱和问问音箱在6米距离存在一次未唤醒。

（2）噪音环境下

（图为噪音环境下5次测试唤醒次数统计）

在噪音环境下，我们将手机音量调整至30%，放置在音箱后面作为背景噪声，分别在2米、4米、6米的位置，使用同一个声音分别测试5次。

（3）强噪音环境下

（图为强噪音环境下5次测试唤醒次数统计）

可是仅仅是这样，我还不过瘾！各家智能音箱的唤醒极限在哪里呢？为了“虐”他们一把，我又添加了更强的噪音测试，将手机音量调整至50%，作为背景噪声放在音箱后面，采用上面方式进行测试。（注：这个噪声相当于十分嘈杂的环境，而非模拟家居环境，仅做极限测试使用）

果不其然，在如此高强度的噪音下，小米音箱只在2米的距离唤醒了3次，其他均“全军覆没”。问问音箱也是如此，仅在2米处唤醒了2次，就开启的“睡大觉”模式。

然而，令我十分吃惊的是叮咚2代的战斗力。如此嘈杂的环境下，2米处全部唤醒，4米全部唤醒，仅在6米处有一次未唤醒。不禁感慨，叮咚2代真是下足了功夫，将唤醒打磨到如此稳定。

（强噪音环境下智能音箱的唤醒情况）

3、误唤醒：整体相对稳定

唤醒和误唤醒是紧密相连的，唤醒的灵敏度提升，也很有可能伴随误唤醒的增多。叮咚2代有如此强的唤醒能力，于是我开始怀疑它的误唤醒率会不会很高呢？

为此，我们将三款智能音箱放在办公室环境下一天，接触声源为办公室的日常交谈声和大家对三台音箱的调侃声。发现在一天中仅有小米AI音箱在别人和其他音箱的对话中被误唤醒了一次，其他音箱均无误唤醒。

需要说明的是，办公室场景下的误唤醒不能代表家庭环境下的情况，因为家庭环境中可能存在电视声、手机声、对话声等更多元的声音背景，相应的误唤醒也可能会略有增加。

4、音质：各有侧重

好听的声音，固然能够获得一定用户的喜爱，比如小爱同学邻家女孩般的甜美声。但作为一款音箱，音质同样也是最基本最重要的功能。

三款音箱在音质表现上无法要求太高，也就是传统PC多媒体音箱的水平，但也各有特点。我们选取了《渡口》和《偏偏喜欢你》进行高低音的测试。

其中，小米音箱声音爆发力强，相同音量级别（比如50%）听起来的声响是最大的，低音浑厚高音嘹亮，但由于机身较轻，音量开大会有感觉机身震动明显，不够“稳”。叮咚2代个头最小，音效中规中矩，高音、低音都不张扬。

问问音箱按说是发音单元配备最全的，但同样50%的音量对比同一首歌音量偏小，但调大之后，声音的纵深感较强，声场也比较开阔。毕竟价格999元，整体来说还是一分钱一分货。

5、端到端响应时间：叮咚的屏成了矛盾点

身为一个语音助手，能不能迅速的回答主人的问题是用户体验的一个关键。在特定的网络环境下，我们对三款智能音箱的就天气类、百科类、服务类问题进行提问，测试各个音箱的端到端相应时间（这个时间为发出指令结束到智能音箱回答之间的用时）。

在这三类问题中，智能音箱对天气类的问题相应时间明显快于百科类和服务类的问题。三款音箱中，小米音箱和问问音箱速度又快于叮咚2代。

具体而言，小米音箱在天气类的问题中平均用时2.29秒，百科类问题（马云是谁？）则平均花了2.63秒，由于目前小米音箱服务类（点外卖）还接入较少，因此服务类应答2.46秒不具有参考价值。

问问音箱在天气类和百科类用时相差无几，分别为2.40秒、2.43秒，而在服务类耗时2.73秒。其中，问问在百科搜索方面更具有优势。

叮咚2代在响应时间上则略慢其他两家。原因可能在于LED屏幕的使用，目前叮咚2代采用语音和画面进行配合的多维交互，这种组合的交互能够调动用户的视觉听觉，体验上会更好一点。但是或许也正是声音和画面之间的配合降低了叮咚2代的响应时间。

6、语义理解：问问音箱更胜一筹

所谓的语义理解，就是智能音箱能不能理解主人的意图，这是一款智能音箱的必备素养。我们选取了天气类和服务类的问题，每个问题采用多种问法，看智能音箱能不能理解用户的意图。

天气是最基本的问答内容，围绕“今天天气怎么样”，我们问三款智能音箱“今天气温多少度”、“今天有雨吗”、“今天空气质量怎么样”、“今天热吗”等。

在这个基本问题上，三款音箱都能够识别用户的意图“问天气”，但是小米音箱和问问音箱可以根据不同的问法优化答案，在体验上更好。而叮咚2代会经常采用同一个答案回答不同的问法，在用户体验上还有待优化。

放心，我不会就这么轻易的就放过它们的！在服务类的问题中，我们围绕“美食推荐”进行发问，如“我饿了”、“我想吃饭”、“我的肚子咕咕叫”、“附近有什么好吃的”。

其中，小米音箱目前还不支持外卖、美食推荐服务，会回答你“饿了就吃嘛”、“快去吃饭吧”等。叮咚2代本身是具有美食推荐的，但是它并不够“友好”，当你问“我饿了”，它会告诉你“我可以帮你查询附近的美食”，或者就说“饿了就去吃呀”，只有当你让它推荐附近的美食，它才会告诉你附近有什么吃的。

而问问音箱在语义理解上表现的较好。无论是你问“我饿了”，还是“我想吃饭”，它都会为你推荐大众点评附近的美食。

（三款音箱在“服务类”问题的语义理解情况）

7、多轮交互：问问音箱表现不俗

多轮交互是指智能音箱能够在理解上下文的背景下和用户展开多轮次对话。目前通用语下的多轮交互体验很差，而基于特定任务的多轮交互则是智能音箱竞争的一个关键点。

还记得上一季的音箱在多轮交互中表现的一塌糊涂，充分肯定了人类“智商”的伟大。这一次音箱体验，我本没有太多期待，但最终对智能音箱的发展速度略感惊讶。

本次多轮交互采取天气、音乐、百科等几个用户使用频繁的场景。在第一局天气测试中，我们会对三款音箱连续发问“北京天气如何”、“那明天呢”、“那上海呢”，在这方面小米音箱和问问音箱都能够准确的识别天气中的上下文，理解我的意图进行回答。

而叮咚音箱则略显尴尬，普通模式下它并不能够理解上下文，当你问“那明天呢”、“那上海呢”，它就答非所问。但是当你开启它的“AIUI”模式时，才能够“逼着”它理解上下文，准确回答这些信息。

在第二局音乐播放中，我们采取以下任务：“我想听陈奕迅的《红玫瑰》”、“换一首他的歌”、“再换一首”，看智能音箱能不能理解我的意图，准确开展多轮对话。

其中小米音箱可以准确识别“他”，并完成任务；而叮咚2代中间出现一次错误，经过一番调教，也算是识别了“他”；问问音箱则在此局出现一点“状况”，它把识别“他”当成了播放“他”。考虑到问问音箱是工程机，要么是不太稳定，要么就是问问还需要对音乐中的语义理解和多轮对话进行优化。

而在第三轮，我准备了最难的八卦百科问答，“李小璐是谁”、“她老公是谁”、“他女儿叫什么”。小米音箱在这个环节就跟不上节奏了，在第二个问题上就无法应答。叮咚2代也是如此，但这其中发生了一个有趣的小插曲。

还记得上次我们用刘强东来调侃叮咚A1吗？当我们问它“刘强东是谁”后，再问它“他老婆是谁”，叮咚A1就无法理解了，只能直接问它“刘强东的老婆是谁”，它才回答正确。而这次叮咚2代则很“酷”，直接表示它不关注这类问题。

相反问问音箱的多轮对话则表现不错。它可以准确回复“她的丈夫是贾乃亮”，而在“他的女儿叫什么”这个问题上，它回答的是“我猜你要问的是贾乃亮的女儿，她叫贾云馨”。可见问问音箱在语义理解和多轮对话方面确实表现不俗。

但是，我们也采取了一些其他问法进行复制验证，发现用“他的孩子叫什么”时则回答错误，可见问问音箱在多轮对话上也不太成熟，仍需继续打磨。

（三款音箱在“百科类”问题中的多轮对话情况）

8、声纹识别：略显鸡肋

目前小米音箱还不具有声纹功能，叮咚2代和问问音箱具有声纹功能。

但由于问问音箱还在没有正式量产，目前使用的APP版本还没有声纹功能，可见声纹识别方面还不够成熟，出门问问还在打磨中。

而叮咚2代虽然使用了声纹功能，但目前还没有什么使用场景。设定声纹后，对它说“你好”，它也可以跟你打招呼“你好XX”。除此之外，目前还没有看到其他应用。

智能音箱作为一款家庭产品，必然需要声纹识别，从而提供个性化服务，以及增强安全性。但从目前的发展来看，声纹识别还需要一定时间的打磨。

9、内容资源：跟进迅速

这三款智能音箱的功能大体相同，主要为播放音乐等有声读物、设定闹钟提醒、百科问答，以及家居控制等。

目前，叮咚2代的技能已经接近100个，问问音箱和小米音箱也具有40多个技能。相比叮咚音箱已经发展了2年多，问问音箱和小米音箱的内容跟进也比较快。

我们主要测试了三款音箱曲库的丰富程度，有代表的选择了10首音乐进行测试，分别为：陈奕迅《浮夸》、赵雷《南方姑娘》、五月天《突然好想你》、刘德华《忘情水》、李宗盛《少年往事》、 Coldplay《something just like this》、Maroon5《maps》、Michael Jackson《heal the world》、 Fools Garden《Lemon Tree》、Muse《Unintended》。

通过测试发现，三款音箱都具有以上中文歌曲，而由于对英文的识别差异或是英文曲库不同，内容上存在一定的差异。其中小米音箱拥有其中9首音乐，叮咚2代拥有8首音乐，问问音箱拥有7首音乐。

考虑到问问音箱同时接入了QQ音乐和腾讯云小微，音乐资源应该较为丰富。可能问问音箱在英文识别和合成方面还存在一定的问题，有待进一步打磨。

此外，像新闻播报、查限行、星座运势、计算器等技能各家音箱也都具备。总体来说，各家音箱跟进很快，在大类别的技能上都已经具备，但具体丰富程度还需要不断积累。

10、新颖技能

相比上一代智能音箱，本次PK的三款音箱还有一些差异化的亮点功能，值得单独拿出来介绍一下。

叮咚2代提供了一些比较独特的功能，目前可以自定义唤醒词，比如你可以把它的唤醒设定为你男朋友或者女朋友的名字，这样就可以“百呼百应”了。此外，它还可以直接通过音箱打电话。

小米音箱的内容主要采取和第三方合作的模式，其中一个好玩的功能就是“问声音”，比如“大象怎么叫”，小爱同学就会发出大象的声音。另外小米还推出“AI训练计划”，用户可以自己创建训练技能，如果这个技能被小米采用，所有的小米音箱用户都将使用你训练的技能，果然是会培养粉丝的公司。

问问音箱中的功能则更加实用，其已经和高德地图、大众点评、滴滴等合作，它知道你的位置，可以为你叫外卖，也可以给你打车。

四、智能音箱体验的8点结论

通过实测，首先我最想表达的就是，在“前人开路”的基础上，无论是产品，还是整个产业链都已经基本成熟，后入局的音箱玩家可以通过合作的方式快速跟进，小米音箱就是一个众玩家合作的代表。

第二，小米AI音箱整体表现不俗，从唤醒、远场识别、语义理解、内容资源表现都已超过前代产品。尽管没有太多令人惊艳的地方，但加上它甜美的声音，299元的超低价格，相对不错的体验，未来竞争力仍会很大。

第三，叮咚2代从产品层面来讲真的算是惊艳，LED屏的搭配，强力的远场唤醒能力、自定义唤醒词、音箱打电话等都是上一代产品的突破，再加上较早布局拥有的丰富内容资源，都值得肯定。

但是通过对比上一代的叮咚A1，叮咚2代在语义理解和多轮对话方面并没有太多进展。从三款产品的对比中，叮咚2代在语义理解和多轮对话上已经有落后另外两家产品的趋势了。

第四，刚刚推出的问问音箱，尽管测试机还存在一定的不稳定性，但是在语义理解和多轮对话上目前是三家中较好的。但作为一款新推出的音箱，还需要在唤醒、音乐、英文识别等各个场景下进行更深度的打磨。

第五，相比上一代国内产品在语义理解和多轮对话的糟糕表现，这一代的智能音箱在基于特定任务的多轮对话上进展明显。

第六，尽管通用语的多轮对话、语音交互还很难实现，但是在具体场景、具体任务下的多轮对话是可以做到用户的容忍度以内的。这还需要相关的玩家深耕自然语言理解和知识图谱领域，对技术落地进行进一步打磨。

第七，尽管声纹识别不像语义理解那样难以突破，但是从目前的产品来看，声纹技术还需要进一步打磨，另外围绕声纹的应用也需要进一步探索。

第八，接下来智能音箱产品仍会层出不穷，但每家产品的“技能”还处于稀缺状态，对优质“技能”和“技能商店”的需求成为亟待解决的问题，需要更多玩家参与到应用服务内容的深耕。

结语：快速成熟的智能音箱行业

上一季智能音箱产品实测完后，我对智能音箱的体验结果略感失望，并发出“道阻且长”的感叹。

但本次体验完国内最新一代三款智能音箱后，不得不说国内音箱在赶超、跟进的速度上值得称赞，仅仅几个月这一代产品在产品体验、语义理解、多轮对话等方面均有提升。

而这种提升的背后，是智能音箱产业链的成熟，产业链中各个领域的玩家发力不同的方向，所形成的一种聚合效应。相信随着小米AI音箱299价格的强势入场，以及众多其他家音箱产品的涌入，用户和市场会快速培养，最终推动整个行业的成熟。