本文来自

《新潮电子》

2017年10期

《新潮电子》领导数码时尚新生活,坚持以人为本,把消费类电子产品的广泛应用与现代生活紧密结合,以通信、娱乐、移动、影像为四大基本报道方向,向读者提供最快、最新的数码产品资讯和最适用的数字消费指南,引导最精彩的数字时尚生活。

 

邮发代号 78-55邮发代号 78-55

邮发代号 78-55邮发代号 78-55

ISSN 1007-077X(国际统一连续出版物号)

购买纸刊

12期

11期

10期

09期

08期

07期

06期

05期

04期

03期

02期

01期

写了 84 篇文章,被 2 人关注,获得了 0 个喜欢

万物互联时代

语音将成为人机交互的新常态

文/ 董延斌
前言 自从2016年4月传出亚马逊Echo音箱在北美销售超过300万台的消息之后,所有的厂家都不淡定了,而充斥于网络报纸杂志间的有关智能音箱的各类文字大都传递出一个信息:谁会是下一个Echo? 2016年5月19日,谷歌在年度I/O开发者大会上发布了定位较低、以区别于Echo的Google Home。随后的6月2日,科大讯飞和京东合作推出叮咚智能音箱。而在今年,离产品上市预计尚有半年(12月在美国、意大利、澳大利亚等正式发售,但不包括中国地区),苹果就迫不及待地在6月6日的2017WWDC开发者大会上发布HomePod。7月5日,阿里人工智能实验室正式公开亮相,并推出天猫精灵X1。7月26日,小米亮相小米AI音箱,将价格拉至超低的299元!这还没完,Facebook前不久也透露,正在开发一款智能音箱,预计对标Echo Show;在7月的百度AI开发者大会上,百度展示了一款加入人工智能操作系统DuerOS的智能音箱产品;腾讯智能音箱“耳朵”预计年底会发布…… 在2017年,智能音箱这个针对智能家居的“大内总管”火了。但是,你对智能音箱又了解多少?今天我们就有关语音交互“硬”道理之智能音箱跟各位看官谈谈。

 

为什么是智能音箱?

智能音箱为什么会火?这个主要定位于智能家居控制中心的智能产品有什么独到之处?是否能以其他形态进行替代?

 

语音助手+智能音箱=完整智能生态圈?

在智能音箱火起来之前,语音交互主要以“语音助手”的角色出现,Google Assitant(谷歌助理)、微软Contana(小娜)、苹果Siri等率先应用在智能手机、平板电脑、智能手表等产品上,国内的科大讯飞、搜狗、百度等更多作为语音输入法供智能设备下载。

 

但不管是Google Assitant、微软Contana、苹果Siri还是Facebook M、亚马逊Alexa、科大讯飞灵犀、阿里AliGenie平台,都需要一个合适的载体进入用户的生活中(特别是是家庭),以打造完整的智能生态圈,这给智能音箱带来了机会——本身就是家居角色之一的音箱在加上语音助手之后,在家庭中毫无违和感,配合还不错的双向对话和智能家居控制,能让用户感觉家里真正多了一个助理。虽然目前很多桌面型聊天机器人也能起到相应的作用,但往往价格较高,在家庭中定位孩子学习教育、生活助手还是老人陪伴也难以两全。

 

事实上,智能音箱的出现颇有些偶然,因为智能手机正如日中天,似乎是智能语音应用最合适的载体。受苹果Siri的启发,亚马逊从2011年开始Alexa的开发,并在当年的AR项目失败后转向声控扬声器,其目标是开发一款不会太过科幻的产品,甚至设想Echo要比当前的扬声器更简单、便宜。而Fire Phone(对标苹果iPhone)的失败,最终让Echo成为了Alexa的载体。

2015年亚马逊推出Echo。这个没有屏幕的圆柱体虽然被很多人取笑,但2016年4月第三方发布的报告显示,Echo在2015年圣诞节期间就完成了100万台销量,约有3.5万人在亚马逊网站上给它打过分,评分高达4.5星(满分5星),取得骄人战绩。亚马逊6月前将Echo Dot的价格从99美元下降到49美元,这将大幅提升其智能音箱的出货量,预计2017年出货量将突破1000万台。

 

就目前而言,智能音箱技术、市场和应用场景都相对成熟,具备了一个入口的所有基础条件,是家庭生活中语音交互最好的体现形式。

 

不容错过的家庭入口+大数据平台

现在Echo的成本是180美元,如果把包装、运输及市场推广等费用计算在内,亚马逊每卖出一台Echo都是在亏本。事实上,谷歌、苹果、京东、小米、阿里巴巴从低端到高端针对智能音箱的布局,一致都压缩了利润空间——智能音箱绝对不是一款以赚钱为目标的产品。说白了,巨头们压根就没指望依赖智能音箱赚多少钱。很显然,智能音箱绝对是一款战略级产品,所谋甚大的巨头们早就看穿了一切。

 

首先,智能音箱是家庭语音入口——即便不确定未来是不是入口,至少赌错了要比错过更好。巨头们推出智能音箱的目的并不是为了卖硬件,而是透过相对廉价的智能音箱吸引用户进入他们的整个智能生态圈。互联网发展到当今的时代,一切产品设计都会围绕着“抢夺用户时间”进行。在满足你 “越来越懒”的情况下还能方便地做好各类事情,尽可能把你的时间都填满。在很大程度上,智能音箱能把你手机中的各种APP都替代了。天气、音乐、新闻、小说阅读、英语学习、日程提醒、购物……智能音箱统统能够帮你搞定。只是,在享受最好体验的同时,用户的需求基本上被圈定在巨头们的智能生态圈内。

 

其次,智能音箱是物联网入口。巨头们都是将智能音箱作为“智能家居的中枢”进行推广的,虽然Echo们目前仅能通过语音交互,简单地开关灯、窗帘、空调、电视、扫地机器人以及设置温度、搜索节目、智能监控等,但连接控制市面上已有或将有互联网功能的家居设备只是时间问题。相比之下,叮咚在物联网方面的工作做得最出色,借助于京东微联的厂商联盟,已覆盖了60多个品类、超100家一线品牌、1000余款商品,其物联网控制能力在目前所有智能音箱中应该是最为领先的。毫无疑问,Echo和叮咚们将成为家具和家电的重要控制入口,如果家电厂商没有加入到任何一个联盟中,那么未来等到某一个国内领先的智能音箱占据了广大家庭场景之后,该厂商的产品将会很容易的被加入联盟的同类产品给替代。

 

第三则是大数据采集器。对于智能音箱而言,其所有的数据都要上传到云端,一方面是作为用户的查阅备份,而更为重要的,则是云端人工智能学习系统的大数据。数据量越大,云端就会越“聪明”,后续为用户的服务也将会越个性化。当然,上传的数据一定会在相应厂商的“保护”之下。巨头们希望把用户的全部数据都集中到其云服务之上,能在让用户感觉到更加便利的同时,获得更加丰富的用户数据。

 

适当保持距离更产生美

目前语音交互的使用场景分两种。一种是近场语音交互(如手机语音交互,嘴巴贴近麦克风),一般在1米范围内,这种识别率达到90%以上,很多桌面型机器人大都采用了这种配置。另外一种是远场语音,距离1~5米,车载环境和智能家居环境都划归此类。

 

随着人工智能应用的不断发展,人们开始追求更加自由的语音交互方式,远场语音交互的优势逐渐凸显出来。而在Echo出现之前,语音交互产品解决的一直都是近场问题,这是典型的由于技术限制而刻意回避场景的案例,因为此时的近场语音交互要求人类适应机器。

 

扎克伯格说:“虽然以Siri为代表的近场语音识别已经发展了60多年,特别是在2009年后借助深度学习有了实质性进步,但当产品落地的时候,我们意识到用户真正需要的却是类似Echo所倡导的远场语音识别。”人类之间自然的语音交互从来都要拉开一定的距离,所以现在需要机器适应人类。通过智能音箱的远场语音交互可以说是计算机技术的一个巨大进步,也是人工智能的核心要素之一。

 

智能音箱都有什么硬科技?

一个语音产品方案由三部分组成,硬件前端涵括麦克风阵列、降噪算法、芯片、硬件平台等,云端包括语音识别和语义理解、语音数据,内容合作有音乐、天气、短信、通话等应用工具。作为硬件前端,智能音箱非常重要,如果没有好的语音数据收集、降噪、输出,何谈语音识别和交互呢?

 

无论是Echo、Google Home、叮咚还是最新的天猫精灵X1,通过拆解后都可以发现,智能音箱的硬件结构并不算复杂,均采用模块化设计,但它将声学设计、无线技术、语音识别、远场拾音、语义分析等众多技术融合在一起,要想获得比较满意的效果,需要各个模块结合外形设计、生产工艺、算法设计、产品体验等多个方面进行细致打磨,有时候甚至不得不痛苦折中。

 

外形、扬声器及音腔

作为现代智能家居生活的中枢,智能音箱的外形设计非常考究,不一定都要获得“红点”大奖,但至少应该赏心悦目,形状、大小、灯效甚至重量等因素都要考虑到。同时,为实现更好的交互效果,还要通盘考虑和音腔设计(影响音效)、麦克风阵列方案的相互耦合以及音腔和扬声器之间的距离。

 

智能音箱本质上还是音箱,需要提供用户认可的音质——即便去掉智能性成分,Echo同样是一款不错的音箱,和同价位的蓝牙音箱相比具备一定的可比性。但为支持全双工交互(语音反馈和监听同步进行,支持随时语音打断,对非相关语音拒识),扬声器的功率不能太大(最大音量降低),反之则降低了语音识别的灵敏度。

 

(Echo采用封闭式扬声器设计,高低音单元上下并列,声音各方向对称,有利于前端信号处理,但音效受限)

 

麦克风阵列

这是智能音箱的核心部分,主要用于远场识音,由两个以上按一定几何结构(常用线形、环形)摆放的麦克风组成,用来对声场的空间特性进行采样并处理。在唤醒状态下,麦克风阵列会进行复杂的语音信号处理,实现噪声抑制、混响去除、人声干扰抑制、声源定位、声源跟踪、阵列增益等功能,进而提高语音信号处理质量,以提高真实环境下的语音识别率。

 

智能音箱多采用环状麦克风阵列,目前以6(+1)麦为主流方案,也有2、4和8麦的产品。虽然麦克风本身成本并不特别高,但增加麦克风数量需要配套增加采样等后续硬件的投入,会大大增加成本。

 

声源定位和波束成形

这是语音交互中很重要的两项技术,前者基于麦克风阵列计算声源的角度和位置,实现对目标说话人的跟踪以及后续的语音定向拾取,是人机交互、音视频会议等领域非常重要的前处理技术。后者基于麦克风阵列中各个麦克风接收的声音进行信号处理(如加权、时延求和等),形成朝向音源的一个小范围的拾音波束区域,同时抑制目标声音以外的声音(环境噪音和其他人声)干扰,它也是实现声源定位主要应用的一种技术。

 

在开启多轮对话后,语音交互系统一般会优先默认第一说话者为拾音主方向,同时抑制其他方向声音,以保证交互的顺利进行。这也是为何现在的智能音箱不能同时和多人进行交互的原因。

 

原声降噪

李开复说:“解决噪音麻烦,追求真实环境下更自然人机交互方案,提升远场语音识别率是当务之急,否则99%的语音识别项目会死掉。”这首先就涉及到声学处理前端的“降噪”问题,也就是我们常说的“原声降噪”(噪声抑制)。

 

从字面意义来讲,原声降噪就是在目标信号和干扰噪声中,保留目标声音,削弱周围的噪声,从而保证获取的目标声音信号相对清晰。智能音箱再结合云端相匹配的语音识别算法,实现有效识别理解。

 

那什么是“噪声”?原则上,除目标音源以外的声音都应该被称作噪声,包括背景噪声(通常不具有空间指向性,能量也不是特别大,不会掩盖正常的语音,但会影响语音的清晰度和可懂度)、混响、回声等,因此语音前端技术中的声源分离、抗混响、回声消除、语音增强等造就了原声降噪,从而帮助远距离识音实现噪声分离,提取目标信号,并增强语音信号能量,最终提升语音识别效果。

 

智能音箱应用场景主要在室内,由于空间反射、衍射,使麦克风阵列接收到的信号除了音源直达信号外,还有多径叠加信号,造成严重干扰语音识别的混响(回声是混响的延伸概念,区别是前者的时延更长)问题,这也是麦克风阵列原声降噪的一个重点。目前,语音增强、波束成形、逆滤波等是抗混响的主要方法。

 

其他技术

智能音箱的主控板和手机等移动设备的主板在本质上并无差别,包括主板、CPU、存储器等。主控板的选择会在满足响应延迟的前提下,尽量压缩成本和功耗。

 

智能音箱是由Wi-Fi音箱发展而来,因此Wi-Fi连接对语音交互非常重要,但实际应用中往往会出现延迟较大、切换较慢甚至掉线等问题。对此,工程师一般在硬件和协议上做些优化,或者采用一定的算法进行适配,因为大部分Wi-Fi音频传递的都是解码后的音频流,这很容易造成丢帧现象。另外,随着智能音箱浮点运算能力的加强,也可以考虑传递编码的音频文件流,当编码的时候就针对Wi-Fi的问题提前做出冗余,会大幅提高Wi-Fi方面的性能。

 

Tips:唤醒词

也称语音唤醒,即把把智能音箱从其他状态切换到了语音识别工作状态,也称为语音识别启动特定词。唤醒词一般是产品名字,有的可以用户自定义,最好简短,朗朗上口,避免与常用词语相同或谐音。唤醒词的识别能力高低是保证语音交互效果好坏的一道重要保障。

 

Tips:声纹识别

机器根据语音波形反映说话人生理和行为特征的语音参数,自动识别说话人身份的一项技术。基于此,机器能与人更自然地交互,甚至还能从同方向的多个音源中精准提取和分离出目标音源,并据此进行有针对性的内容推送和服务。

 

详细分解麦克风阵列

作为智能音箱的“耳朵”,麦克风阵列在语音交互中是无可替代的。没有它们,再牛的语音识别、自然语言理解技术都没有用武之地。在前面,我们讲到麦克风阵列通过声源定位、波束形成、噪声抑制、回声消除等算法,有效拾取声音,从而保证具体场景中语音的识别率。而在这里,我们将从芯片、麦克风到阵列,看看目前的主流麦克风阵列究竟有什么不同。

 

为何要选择麦克风阵列?

在智能手机或者手持式语音交互设备上,单麦克风系统还是有一定的用户之地,事实上也有产品(如桌面或手持型儿童机器人)采用了这种设计,它可以在低噪声、无混响、距离声源很近的情况下获得符合语音识别需求的声音信号。

 

不过,我们生活的环境中总存在大量噪声,并伴随着多径反射和混响(尤其是居家室内),若声源距离麦克风距离较远(1米以上),更会导致拾取信号的质量下降,从而严重影响语音识别率。同时,因为单麦克风接收的信号是由多个声源和环境噪声叠加的,所以很难实现各个声源的分离,无法实现声源定位。另外,还有一类声音的叠加并非噪声,但是在语音识别中也要抑制,就是人声的干扰,语音识别显然不能同时识别两个以上的声音。

 

当语音交互的场景过渡到以智能音箱、机器人或者汽车等为主要场景的时候,单麦克风的局限性就凸显出来。为解决单麦克风的这些局限性,利用麦克风阵列进行语音处理就应时而生。

 

究竟选择两麦还是多麦

从目前的主流智能音箱中可以看出,麦克风阵列主要包括环形和线性。亚马逊Echo、叮咚音箱、天猫精灵X1、小米AI音箱等技术路线相似,都使用6(+1)、7(+1)个麦克风的环形阵列,而Google Home、问问音箱Tichhome则有些“另类”,采用了2麦克风的线性阵列。这和麦克风阵列所采用的语音增强技术应用以及箱体结构有很大关系。

 

要想在智能音箱这个前端获得优秀的识音效果,目前采用的大致有两种技术路线:一种是以亚马逊Echo为代表的经典波束形成路线,它对麦克风的数目和阵列拓扑结构依赖较大。通过使用较多的麦克风以及特定的拓扑结构,从而使得波束的空间区分性更强,保证声源定位和拾音效果。另外一种就是以科胜讯为代表的路线,该路线更加依赖于语音增强算法,而对麦克风的数量和阵列拓扑结构依赖较小。难怪科胜讯会说,其双麦克风就可以实现相当于友商5-8麦克风的解决方案。

 

事实上,仅靠麦克风阵列也很难保证语音识别率的指标。麦克风阵列仅是物理入口,只是完成了物理世界的声音信号处理,得到了语音识别想要的声音,而语音识别率却是在云端测试得到的结果,因此这两个系统必须匹配在一起才能得到最好的效果。谷歌表示,GoogleHome正是通过云端机器学习算法(例如自然语义处理)对2个麦克风进行了调试(硬件端计算能力相对较差),也能达到7麦克风的识音效果。

 

麦克风是否越多越好?

目前波束形成路线应用最广泛,对麦克风的数量的要求也相对较多。若想更好地去除部分噪声,可以选用2麦方案,但是这种方案比较折衷。2麦阵列主要优点就是ID设计简单,在通话模式情况下可以去除某个范围内的噪音。若希望产品能适应更多用户场景,则可以类似亚马逊Echo一样直接选用4麦以上的麦克风阵列。一般来说,机器人采用4个麦克风就够了,4麦线性麦克风阵列也适合电视类智能家居,智能音箱则建议选用6个以上麦克风,形成环形360°识音。至于汽车领域,最好是选用其他结构形式的麦克风阵列,比如分布式阵列。

 

不同的阵型适应不同的场景,同时还要考虑性价比,毕竟阵列结构越复杂其成本也越高。而对于智能音箱来说,由于用户使用习惯,需要360度的拾音和定向,采用环型阵列结构是最为合适的。至于选用3个,4个还是6个,则是根据定向精度和交互距离来决定,从某个角度可以理解为麦克风的数量越多定向越准,语音识别的距离也会越远,当然,这和阵型的具体结构也有关系。

 

相对而言,选用6个麦克风的结构非常明智,性价比最为合适,这也是声智科技、思必驰等主推的麦克风阵型。事实上,根据当前的技术,选用4个麦克风的效果也不会太差,只是语音交互距离会损失一点。

 

选择MEMS还是ECM

麦克风是典型的传感器产业,其技术迭代非常迅速,外观也发生了不少变化。现在麦克风阵列主要使用的是数字MEMS(Micro-Electro-Mechanical System,微型机电系统)麦克风,其最长尺寸仅有3.76MM。MEMS麦克风也是手机中大量使用的传感器件,一般手机至少有2个以上这类麦克风。MEMS麦克风实际上只是工艺上的改进,其原理依然属于电容式麦克风。

与MEMS麦克风直接PK且同样是消费电子领域主力军的,就是ECM(Electret Capacitor Microphone,驻极体)麦克风。其中,Echo和小米AI音箱的开发板采用了MEMS麦克风,而叮咚开发板则采用了ECM麦克风。相对而言,ECM麦克风的性能指标更高,因此有的单麦产品就采用了ECM麦克风;而MEMS的一致性好,更适合远场语音交互的麦克风阵列,因此在智能音箱中占据了主流。

 

主控芯片哪家强

作为智能音箱的老大哥,Echo在设计、工艺、智能应用、交互体验等都做出了表率,主控芯片采用了工业级的TI(德州仪器)DM3725CUS100芯片,虽然主频不高,但处理能力很强,性能稳定,单片的价格就接近10美金。

 

GoogleHome也采用了工业级的Marvell(美满)88DE3006芯片,但价格却没那么贵,因为计算放在云端,因此也没有配置编解码芯片,简化了设计,麦克风阵列可与主控直接相连。

天猫精灵X1采用MTK新近推出的MT8516的语音专用芯片,可支持8通道麦克风阵列接口,在同代中性价比更高,极具性价比。它和Echo一样,都采用了德州仪器的ADC芯片,信噪比不算很高。

 

叮咚音箱采用了非专用语音芯片的全志科技R16芯片,工艺一般,发热量较大,性能相对一般。但它配置了科胜讯编解码芯片,信噪比更高,性能更佳。

 

目前有哪些智能音箱方案公司?

随着国内外智能音箱产业及语音交互的火热,以麦克风阵列为主的前端语音处理系统诞生了不少解决方案和新创业公司。不过,既能完整提供单麦/双麦、4+1、6+1等麦克风阵列硬件方案,又能提供前端算法的厂商并不多,其中国外的有国际语音方案巨头科胜讯,国内有影响力的公司则有科大讯飞、思必驰、云知声、声智科技、先声互联等。

 

科胜讯

这是一家成立于1999年的老牌企业,曾是全球最大的独立通讯芯片提供商。科胜讯能提供语音芯片和麦克风阵列技术,相比其他公司语音方案,它在降噪和语音增强算方面更具优势,对麦克风阵列数量和阵列拓扑结构依赖较小,通过自适应降噪、降低混响、语音分离等技术,靠少量麦克风就能获得良好的拾音效果。出门问问正是采用了科胜讯的2麦克风解决方案,包括亚马逊、百度、阿里巴巴、腾讯、哈曼、科大讯飞、云知声等都是科胜讯客户或合作伙伴,而且它还为AVS (Alexa Voice Service) 量身定做了AudioSmart语音处理开发套件,涵盖了智能音箱、智能家居、智能电视、机器人等多个品类。

 

声智科技

这是一家初创企业,成立于2016年,从事语音交互芯片、模组和设备研发、设计、制造并提供整体声学技术解决方案,6个创始人中的5人都在中科院做了多年声学技术研究。去年底,声智科技完成1600元Pre-A轮融资,现已在智能音箱、智能安防等诸多领域迅速布局,并与腾讯、阿里巴巴、百度、小米、华为、奇虎360等巨头企业达成合作,小米AI音箱就采用了声智科技的环形6麦克风阵列和唤醒技术方案。目前,当前声智科技的产品线十分齐全,拥有3、4、4+1、6麦的环型阵列结构以及单麦、4麦线型、6麦L型,8麦双L型、10麦分布式阵列等结构。针对一些技术实现能力强的公司,声智科技则主要提供声学芯片、模组和通用麦克风阵列。

 

先声互联

与声智科技一样,先声互联的创始人付强和主要成员也主要来自于中科院声学所,在语音信号处理领域有着20多年的积淀。先声互联的技术路线和科胜讯相似,其优势更在于阵列的增强算法,目前主要提供两麦、四麦、六麦及七麦以上等解决方案,在抗混响、回声消除、语音增强等方面表现不俗。另外,先声互联已通过基于Alexa的AVS标准认证,在远讲算法方面颇具优势。

 

先声互联是百度的合作伙伴,其多麦克风硬件开发套件也应用在百度DuerOS平台中,同时也在和腾讯、联想、小米等展开硬件产品合作。目前,物灵的luka阅读养成机器人、极米科技的Lightank W100、360巴迪龙儿童陪伴机器人等产品都采用了先声互联的远讲算法以及麦克风拾音模组。

 

思必驰

在语音交互领域内,思必驰主要是一家面向B端客户的语音语义技术提供商。但事实上,从2012年开始,思必驰就着手研究麦克风阵列技术,并配备一个专门的团队研究语音信号处理,结合思必驰的语音交互进行优化。目前思必驰能提供单麦、2、4、6及6+1麦等解决方案,适用于电视、wifi音箱、空调等,经过几年时间的积累,在性能和稳定性上均表现不错。尤其是后者,融入了语音增强算法,在声源定位、远场交互、打断纠错、多轮对话方面均有突出表现。

 

近期阿里推出的天猫精灵X1采用了思必驰的环形6麦克风阵列,在降噪、回声消除等拾音方面均有不错表现。此外,联想、小米、美的、360、DOSS等都是其客户。

 

科大讯飞

作为国内的老牌智能语音公司,科大讯飞专门有一个团队在研发麦克风阵列技术。在其官方网站上,可以看到它能提供2麦线性阵列、4麦线性阵列和6麦环形阵列,应用了基于线性阵列、平面阵列以及空间立体阵列的波束形成和降噪技术,在国内拥有很大影响力,中兴、海康威视、美的、高德、优必选、狗尾草等都是其客户。

 

为了打造中国版Echo智能音箱,科大讯飞和京东联合成立灵隆科技,于2015年8月推出叮咚,采用7+1麦克风阵列,配置豪恩声学提供的ECM麦克风和科胜讯CX20810-11Z音频芯片,虽然有些复杂,却保证了不错的音质和远近场识音效果。

 

先行者?成功者?

智能音箱出现的时间很短,即便是拥有先发优势的亚马逊Echo,也仅在2014年才粉墨登场,随后Google Home、叮咚跟进,直到今年大爆发,HomePod、月石、小雅、天猫精灵、小米智能音箱、Tichhome等纷纷粉墨登场,智能音箱产业的真正竞争才开始拉开帷幕。

 

亚马逊Echo

售价:约1180元

亚马逊从2011年开始研发Echo,2014年推出,很多设计和配置都被称作智能音箱的经典之作。Echo从上到下层次感十足,采用了高音单元、低音单元、U性倒相管和麦克风阵列4节设计,主控电路板则位于机身侧面。从主控芯片到6+1麦的环型阵列结构,均用料十足,使用音波聚束技术进行远场声音探测,同时配合增强的噪音消除技术,使得Echo即使在播放音乐时也能听清用户的提问指令。

 

Echo除了可以在亚马逊平台上购物和播放Prime音乐外,还可以让用户选择Pandora、Spotify等娱乐,购买达美乐披萨外卖、获得Yelp点评的功能和Uber打车服务等。在智能家居应用上,亚马逊选择与三星、飞利浦、Belkin、Ecobee等合作,将它们的智能家居设备整合到Echo的控制系统中。

 

另外,亚马逊还推出了带屏幕的Echo Show、可以将语音功能扩展至其他房间的Echo Dot及相当于便携式蓝牙音箱的Echo Tap。

 

谷歌Google Home

售价:约850元

因为Echo珠玉在前,谷歌不得不走低端,让Google Home牺牲了远场语音交互的体验,但它依然被认为将成为智能家居市场上广受欢迎的智能音箱Echo的直接对手。Google Home采用了圆润而精致的造型,非常小巧,设计简单巧妙,仅有两块电路板,集成度很高,硬件的处理能力较为简单。尽管采用了两麦的线性麦克风阵列,但它采用了谷歌独特的算法和深度学习技术,同时计算都送到云端,简化了硬件设计。在3米内,拾音效果甚至比Echo还好。同时,几个不同的Google Home可以同时响应用户语音指令,支持多房间连接应用。

 

谷歌目前的合作伙伴包括飞利浦Hue、IFTTT、三星旗下的SmartThings平台等,支持第三方生活场景接入,在智能家居上最大的资本就是拥有智能家居市场最受关注的品牌Nest。由于谷歌在用户消费数据上无法与亚马逊相比,所以他们选择了更为熟悉的领域,即用户日常生活行为习惯数据——Google Home继续发挥搜索引擎的重要能力。

 

苹果HomePod

售价:约2300元

由于必须要与Echo和Google Home形成差异,因此苹果HomePod定位高端,要给消费者带来高品质体验——小巧的HomePod是艺术和技术结合的产物,拥有非常棒的音频技术,底部采用了7个波束形成的高频扬声器阵列,可以精准呈现声学效果以及声场控制,并“很过分”地在小巧的机身中配置了一个4寸低音炮,同时还采用了大量音效算法,包括自动低音均衡、动态建模等,6麦克风阵列兼具了实时声学建模、音频波束形成、多通道回声消除技术,使HomePod是迄今为止响应速度最快、音效最棒且语音交互也不错的智能音箱。再加上苹果原本很厉害的音乐和控制生态,HomePod未来很被看好。

 

另外,HomePod支持声纹识别和多房间音乐系统,搭载强调空间感和沉浸感的Spatial Awareness技术,可以根据现场的环境来调整音乐效果,如果使用多个HomePod,其音效效果将更加棒。预计至少等到12月份HomePod才在美国、英国、澳大利亚同步发售,而全球发货要等到明年稍晚些时候。

 

叮咚音箱

售价:598元

叮咚音箱的机身较大,结构较为复杂,但其7+1麦的环型阵列结构独具特色,并很注重音质效果。语音交互由科大讯飞支持,八个麦克风阵列可以360 拾取声音,通过阵列的形成技术,在空间形成若干个识音区域,音源定位不错,远场识音效果优秀,在100dB音乐播放过程中也能实现良好的语音打断唤醒率。从搜索引擎功能上,叮咚并不能做到像Echo和Google Home一样及时回答复杂问题以及背景衔接等功能。

 

叮咚提供了百余款应用,并可以通过京东微联的App,使用叮咚控制家电,包括智能烤箱、智能跑步机、智能冰箱等数超过1000款设备。根据京东智能公布显示,京东开放平台首批合作伙伴包括滴出行、中通快递、e袋洗、百度地图、京东到家、JIMI机器人等,也支持美居智能设备、小米智能家居、飞利浦HUB智能灯等,接入内容和服务已众多。

京东前不久推出增加了声纹识别、屏幕手势操作的叮咚二代,售价798元,造型接近GoogleHome,机身设计更加成熟。和亚马逊一样,京东也有更小巧的叮咚Top,可用于多房间扩展语音应用。

 

天猫精灵X1

售价:499元

天猫精灵X1由阿里人工智能实验室推出的第一款智能语音设备,机身很小巧,仅有叮咚A1X的一半,整体设计不错,零部件相对较少,设计结构相对简洁,集成性较高,触控操作与其他智能音箱相似。但其只有单个5w全频发音单元以及音腔共振结构,一定程度上牺牲了音质。

 

在系统中,天猫精灵X1内置第一代中文人机交流系统AliGenie和思必驰提供的6麦克风唤醒阵列,在解码、降噪、声音处理、多声道的协同等方面做了专门的优化处理,支持在有噪音的环境中正常唤醒和使用,但语音交互体验略逊叮咚。

 

事实上,天猫精灵X1和叮咚有着相似的应用背景,因此它们在国内也是最直接的竞争对手。目前,X1仅提供了对自家阿里智能的支持,较叮咚的扩展应用弱。但即便如此,因为有阿里巴巴背书,X1在推出后短短几天时间就销量过万。凭借阿里巴巴的号召力,相信X1未来潜力无限。

 

小米AI音箱

售价:299元

无论是造型设计还是价格,小米AI音箱都延续了米家一贯的产品开发推广风格。该音箱由小米电视团队、小米大脑团队以及探索实验室三个团队联合开发,内置6个数字麦克风,支持360度扬声,拥有环形触控+多彩圆环。利用波束成形技术,可有效屏蔽干扰,实现远距离声控。最重要的是,米家已经形成闭环的众多智能家居设备有了更好的终端控制,小米整个智能生态链得到完善。

 

不过,小米AI音箱其实是一个多方技术的综合体:6麦克风环形阵列和唤醒技术方案来自声智科技,应用了搜狗知音语音识别技术和思必驰语义交互技术。除路况查询、问答百科、股票信息这些常见技能之外,海知智能也提供了星座、饮食百科等17款特色技能插件。同时,小米AI音箱还推出“水滴计划”,向第三方开放人工智能语音能力和SDK,号称未来还将迎来成千上万种能力。目前,拥有超低价格的搅局者——小米AI音箱很长时间都处于缺货状态。

 

问问音箱Tichhome

价格:1399元(高端版)

虽然之前做了智能手表系统和智能车载硬件,但出门问问最擅长的其实是语音交互、垂直搜索及基于技术的ADAS(高级驾驶辅助系统)和机器人SLAM(即时定位与地图构建)等, Tichome只是其技术延伸至智能家居的一根产业链条,能与智能手表Ticwatch、手机APP、车载Ticmirror等联动。

 

Tichome布纹机身块头较大,LED灯带能以不同颜色表现音量、麦克风静音、蓝牙匹配、Wi-Fi匹配等模式。额定功率50W,号称音质最好的智能音箱——选择Peerless专业级定制高低音喇叭,包括3寸铝合金振膜低音喇叭、1寸软球顶高音喇叭等,声音清晰透明,层次丰富。它采用科胜讯的AudioSmart语音处理方案,配置与GoogleHome相似的2线性麦克风阵列,语音交互效果与之相似。与腾讯云小微、QQ音乐、考拉FM、今日头条、即刻、乐听头条、喜马拉雅FM等展开内容合作,智能家居方面则支持海尔U+、博联、Lifesmart、小葱智能、幻腾智能等智能终端,通过它们控制上千种智能设备。

 

另外,出门问问还推出了搭载Google Assistant(谷歌助手)、小巧便携的Tichome Mini,定位与叮咚Top相似。

 

若琪·月石

价格:1399元

智能音箱在国内开始火起来之前,Rokid就做了拥有极高人气、带内投影的若琪·外星人。新一代的月石只是去掉了投影功能,其他方面基本保持一致,针对中低端市场发力。与大家常见的智能音箱相比,采用高强度航空氧化铝压制的曲面金属外壳+精密网布结构的月石无疑更爽心悦目,创意灵感来源于芝加哥地标建筑The Bean,功能布局巧妙,网络连接非常简单,这也是它能在年初CES展会上获得音视频类创新产品奖、科技改变生活奖及德国iF和红点大奖的重要原因。

 

凭借深厚的技术积累,采用6麦克风阵列和2个32mm全频扬声器的月石在语音交互体验上表现不错,拥有较高水准的语音识别率,远场交互优秀,并加入了声纹识别功能,能够结合上下文进行语义理解,交流简洁自然,儿童教育、中英文翻译等本地化服务表现到位。适配小米、欧瑞博、lifesmart、博联、飞利浦hue等智能家居设备,月石就能轻松控制各种智能家电了。唯一的问题,月石的价格有些高了。

 

联想智能音箱

价格:999元

虽然在年前就已经推出,但联想智能音箱在国内的知名度并不高,网络中的宣传很少,这可能跟它主要针对海外市场有关。与小米AI音箱相比,联想智能音箱稍大,配色看自己喜好,氛围灯的色彩变化代表着模式的切换。优秀的音质表现是一大亮点。音箱配置了1个12w高音单元和1个8w低音单元,拥有特殊优化的倒相管出风口设计,整体号称经过专业调校,能带来HiFi级的音乐品质。

 

8麦克风环形阵列的配置很拉风,识别唤醒率不错,远场拾音效果也较好,支持酷我音乐、喜马拉雅、滴滴出行等内容,但联想并未公布其采用了哪家语音交互技术。在最初的众测中,被发现很多需要完善的地方,比如联网困难,开关机太慢,APP界面过于单调。在智能设备控制方面,用户可以添加的设备非常丰富,包括支持Zigbee协议的各种控制器及插座、报警器、智能门锁、灯泡、音箱等。但相比今年涌现的那些新锐,联想智能音箱还有较长的路要走。

 

喜马拉雅小雅

价格:999元

做内容的喜马拉雅出智能音箱了!这是让人有些意外却又在情理之中。也正因为有喜马拉雅背书,小雅也被称作“国内首款全内容智能音箱”。它拥有五大特点:记忆收听历史、按照你的喜好推荐内容、断点续播、支持模糊搜索、覆盖6000万内容。与目前的智能音箱相比,这些东西的确很有特色。

不过,也正因为强调“内容”的强大,小雅虽然配置了6+1环形麦克风阵列,语音识音效果和唤醒率都有较高水准,但语音交互却并不是现在处于“喜马拉雅INSIDE 1.0时代”的小雅强调的重点,内容才是根本。它获得了来自喜马拉雅FM、百度音乐、虾米音乐以及豆瓣音乐等各平台内容的授权,接入苹果、三星、百度、阿里、京东、今日头条等超过2000家品牌,与康壹集团、瑞典HUMAX、美的、Sonos、辣妈帮签订一系列行业定制合作。在做好内容之后,2.0时代的小雅提供的场景解决方案就能成为一个‘管家’,服务于各个细分行业。

 

从场景落地看智能音箱

谈到人工智能产品的定位,“场景化”是不可避免的。智能音箱从硬件到功能表现都不断在完善,云+大数据技术不断强大,从而给用户带来更好的体验。

 

主要的应用场景有哪些?

作为第一款智能音箱,Echo表现相当抢眼,销量遥遥领先,已经成为行业标杆和争相模仿或者学习的对象,这和它本身所应用领先的硬件技术、交互出众的Alexa和广泛的功能应用(英文名“Skill”)有很大关系。特别是后者,Echo在推出之后,就有众多第三方为其编写可供语音控制使用的APP——Alexa、叮咚、百度DuerOS等都开放了底层技术,创业者可以快速介入,从而打造强大的生态圈。

 

现在的数据显示,Echo的应用已经超过20000项了,用户日活跃度也高达60%。根据第三方机构BI的数据统计,排名前十的应用是设置提醒、播放歌曲、阅读新闻、闹钟、计时器、时刻表、控制灯光、添加购物清单、连接支付音乐服务、在Amazon Prime上购物、调节温度等。而市场调研机构ComScore最近的调查显示,美国智能音箱用户有60%的人会用它做一些简单的询问,57%的人会询问天气情况,54%播放歌曲,41%设置闹钟,39%创建提醒事项或者是待办事项等。

 

从国内现有的智能音箱来看,音乐播放、天气查询、新闻播报、设置提醒等应用最多,针对小朋友的讲故事、百科知识查询等也有不错的表现。特别是音乐,智能音箱的语音交互系统对关键词的抓取也特别偏好,对话中“一言不合”就开始切入播放。

 

目前,智能音箱针对叫餐、打车等具体服务这类“刚需”的应用却很少,毕竟很多服务类应用的个性化和场景都相对较复杂,而现在各语音交互系统在实现多轮复杂对话和开放域聊天方面还有些力不从心,主动推荐极少,Echo、叮咚皆如此。对于智能音箱开发者来说,仍需要在更好的用户交互体验上持续打磨,需要针对性地在一些核心场景(特别是自己擅长的)中做出深度并留住客户。

 

屏幕有无很重要么?

如果是苹果、谷歌或者科大讯飞、出门问问等自己开发的智能音箱,只针对日常生活、智能家居控制,很多人估计都无可厚非。不过,对于Echo、叮咚、天猫精灵X1这类产品来说,背靠强大的电商交易平台,不在购物方面整合利用实在是巨大的浪费,也是巨头们所不能容忍的。

 

Echo的一个开发人员曾透露:“杰夫(贝索斯)有这样一个愿景,他想要整合购物体验的每一个环节。”实际上,智能音箱也正在朝着这个方向发展,随着功能应用的迭代升级,叫外卖、购买东西、预定酒店、打车等与我们衣食住行相关的一切基本上都能通过智能音箱完成。

 

电商是亚马逊的根基,Echo的网购功能吸引了更多的用户在亚马逊上购物及参与成为Prime会员。 根据Slice Intelligence的报告,Echo用户都是“亚马逊重度消费者”,他们比非Echo用户在亚马逊上的花费多7%。这也给了亚马逊更多的用户消费数据,从而提高消费者体验。

由于Echo在之前是没有屏幕的,所以购物等环节受到影响是肯定的,目前最新的Echo Show已经加入了触控屏幕,能提供更丰富的信息显示(天气、日期、音乐专辑封面以及视频),购物等场景的使用率将会大大提升,也能大大增强远程交互效果。

 

据悉,Facebook正准备推出一款智能音箱,主打社交和视频通话,将在明年一季度上市。据统计,在Facebook Messenger的12亿用户中,平均每月有4亿人通过Messenger 进行视频通话。带屏幕的音箱作为一个升级版的电话,能够极大地方便家庭中的儿童、老人的等用户群体。

 

加入屏幕与否或许不是很重要,但它应该会作为智能音箱细分市场的一个分支存在。

 

智能音箱只是过渡产品

未来人工智能会像水和电一样无所不在,在“万物互联时代”,语音将成为人机交互的新常态。语音作为人类最直接的表达方式,使用者的体验最为便捷,语音已经成为了智能交互的不二方式。

 

经过4年发展,智能音箱从芯片、模组、麦克风阵列到产业配套内容、服务,都在快速完善。随着天猫精灵X1和小米AI音箱的出现,产业链更加成熟,门槛也越来越低。随着行业的链条专业化,更优质的语音产品将会更低成本进入生活方方面面,而基于语音产品将带来的消费升级和提质增效将为我们的生活和工作带来妙不可言的快乐。

 

但我们更看好语音识别在生活上跟互联网生态圈的无缝衔接,同时设备制造商也应该考虑更多的可能性,布局不同的细分场景。如车载的中控设备、移动场景下的智能耳机、以及家居场景中的电视、儿童机器人等都是不错的切入点。

 

智能音箱的战略意义是成为智能家居中控板块,而音箱只是现阶段赋予的更容易接受的认可物。在未来,集成了声音、眼控以及手势控制的可穿戴设备将会成为物联网和5G时代非常重要的入口方式,替代智能音箱的可能性非常大。

 

登录注册 后评论。
n
Copyright © 2016 vantk.com 远望资讯 版权声明. 经营许可证:渝B2-20030004-10

渝公网安备 50019002500898号