为什么天猫智能音箱 99离开我家才10天,就开始想念它

注册 | 登录
改变不了世界的产品经理
从零开始学运营,10年运营老司机带路,2天线下集训+1年在线学习,做个优秀的运营人。
本文作者尝试着从技术瓶颈、用户心理、销售渠道等不同角度来解释国内的智能音箱话题虽热,但产生不了百万级的爆品的原因,也畅想一下智能音箱的未来。
这篇文章本来农历年就打算写完,发出来,但是几个月内,智能音箱一下子成为了各大公司的聚焦点,感觉再不写,这个话题都过时了,可叹变化太快。
笔者曾在2015年和team艰苦奋战,致力打造中国版的echo,完成产品后由于公司战略调整,方案搁置,但是回头看来,当时的音箱方案哪怕放在现在,从识别的准确率到人机交互的流畅性来看都是具备竞争力的。
也是从那个时候对智能音箱产生了不可割舍的情愫。两年过去了,智能音箱携AI大热的风潮席卷而来,不下几十个厂商要把这片蓝海催成血海,但是成功的经验一般都是不可复制的,天时地利人和缺一不可,笔者尝试着从技术瓶颈、用户心理、销售渠道等不同角度来解释为什么国内的智能音箱话题虽热,但却产生不了百万级的爆品的原因,也畅想一下智能音箱的未来。
一、国情问题
“橘生淮南则为橘 生于淮北则为枳 ”,这句话是我在Echo美国大火,国内厂商纷纷杀入音箱市场后,脑子里经常闪现的一句话,所以我一直想从两国国情不同的层面去解释,为什么国内的智能音箱总是不温不火。
科技类产品,两类会大火:
产品从无到有,解决了普遍的刚需问题,如:马车→ 汽车、写信→电话…
产品在已有的庞大市场里进行技术革新、更新换代:汽车→特斯拉、功能手机→iPhone……
所以,Echo在美国的火爆应该属于第二者,说明在北美以及欧洲市场里,音箱应该是一个庞大存量市场,从发达国家对付费音乐的购买力就能管窥蠡测,而且街头文化,party文化的盛行,为了嗨起来,让音箱有了大量的使用场景。Echo在存量市场里进行智能化,诱使用户为产品更新买单,这是非常合理的商业化方式,就像我们一直在追逐新款的手机一样。
反观国内市场,居家必备的电视毋庸置疑成为了智能化最普遍的设备,而音箱并不是一个大的品类,我们没有那么大的房间,需要嗨音量、音乐鉴赏力的不足,使用户并没有动力去购买高品质的音箱,大部分时候还是靠手机公放来解决问题。
这时候智能音箱面对的用户群就缩的很窄了,大致分为两类人:
智能硬件爱好者
音箱类产品的升级换代
可想而知在这两类人群中想要获取巨大的销售量是很难得,所以说国情问题是制约国产Echo们大麦的一个先决条件。
上面所说的都是在理性消费中用户会做出的选择,但我们都有因为冲动而为产品买单的经历,其中产品的颜值就是影响用户购买产品决策的重要一环。下面我们说说国产Echo们的颜值问题。
二、颜值问题
对智能硬件我更是认为是一个442的组合,颜值也就是工业设计和产品设计要占到百分之四十,这部分满足用户的冲动消费或者审美特性;产品的性能占比百分之四十,智能化占比百分之二十,在满足硬件功能本身加入智能化才是培养用户使用习惯阶段的AI思路。
下面对比一下国内厂商和Echo外观的区别:
Echo整体呈圆柱体,长宽比例给人以非常修长的感觉,像一个纤瘦的姑娘,亭亭玉立;
黑色给人以金属质感,科技范儿十足,满足了装B的特性;
一半透孔的设计,很有层次感,不会让人满身都是喇叭的感觉;
顶部的灯带颜色多变、艳丽,指导性和美感兼具;
这样一个颜值一流的音箱,哪怕只作为摆设陈设在家中,也会给家中增强科技感,何况他还能播放音乐呢?这就给在意颜值的冲动消费者提供了购买动机。
再回头看看国内的智能音箱……一声呵呵以后,我就不评价了,公道自在人心。
前面所说的都是影响产品的一些外界因素,但是如果产品真的特别好用,产生了刚需黏性,那其实也是不必考虑的,那国产的Echo们在决绝用户真实场景下是否表现优良呢?
三、先解决一个核心问题再说
貌似不是的,进入AI时代,厂商们就忘记了互联网成功的奥义,起码要要垂直把刚需场景做深,解决一些核心问题之后,再横向把功能做广做全,但是现在厂商往往宣传的时候,都是“我有100个功能”,“我有200个功能”,“选我选我”,殊不知连核心的音乐、操控、有声音频的功能都做不好,添一堆没有用的附加功能又有何用?
拿闲聊这个功能举例,如果NLU层面的Intent Classifier做的不好,就会频繁的将功能触发丢到闲聊里作为兜底,这样就会出一些吐血的回复,比如用户表述“李宗盛的曲子来听听”,这时候给你回复一个“林忆莲不错,为啥他们要分开呢”,你作何感想……分分钟砸掉音箱。
反观Echo,在音乐场景下3年前的搜索维度就已经秒杀众多国内厂商了,而且在刚开始做的时候,技能也不多,基本不和你扯闲聊,碰到不会的问题,都是“I can not understand”,这样既降低了用户的预期,减少了犯错的几率,更能让用户聚焦核心功能,而不是几个回合,用各种各样的功能把它玩儿坏了。
目前国产音箱们依然停留在指令式的要啥给啥的阶段,无非是按照技术思维,在语义层面增加各种搜索维度罢了,基本停留在3年前的助手水准(来首摇滚乐、听周杰伦的歌、更变态的还有方文山作词的歌曲,这也是醉了),反而没有解决一些核心的听歌体验,比如:音乐和有声书的资源名称重合,一字歌两字歌的区分,什么时候歌名或者歌手名直接触发音乐。就更别提用户画像到个性化推荐,人类基本常识到空间与时间的结合,压根没有深挖。笔者碰到的音箱基本都会在深夜,突然播放一首重金属摇滚乐,把自己吓得半死;要么是随意点歌,点不到自己喜欢的调调,这样的音箱…
我还是调成蓝牙模式吧!
音箱作为非必需品,想改变用户的交互形态,就要让用户获取内容足够便捷、成功率高、失败成本低,所以无论是音箱厂商,还是AI技术厂商,都必须将思路进行升级,从“所说即所得”,变成“听懂画外音,所想既所得”,这样才能说AI升级了,变得更加有灵性。但智能硬件不同于传统的APP,尤其是智能音箱,光是想在任何场景下都能唤醒,就已经很不容易了,这就需要硬件和软件进行融合,下面我们就说说软硬结合的重要性。
四、软硬结合、体验为王
智能音箱并不是新鲜物种,可语音交互的智能音箱早在2014前后就已经问世,比如小智音箱以及讯飞X1,只不过当时的交互技术以及麦克风阵列方案并不成熟,并没有达到回升消除以及声源定位,也无法达到基本的handfree。
所以从全局来看智能音箱,并不能简单理解为传统音箱+语音交互技术,它是集麦克风阵列技术、信号处理技术、语音交互技术、定制化的流媒体服务等多种技术和服务的组合,中间有一个环节产生偏差,就会导致最后的效果大打折扣。
这其中麦克风阵列尤其重要,以下是麦克风阵列的功能:
在图上看着可能有点晦涩,说白了,麦克风阵列主要解决的就是:
在有外界声音干扰的情况下,如何尽可能真实的还原说话人下达的指令,并发送给语音识别引擎,最终达成说话人的任务
多角度识别问题
有几个场景可以充分说明这个问题:
播放打断:即音乐播放过程中,你想唤醒智能音箱
鸡尾酒会问题:几个朋友一起吹牛X,或者有其他声音播放,音箱在中间,有人像智能音箱发送指令,这时候该听谁的?
混响问题:在家里说话,声音通过各种墙面和障碍物反射后,如果直接进入识别引擎,这样与无混响模式下训练的引擎,在编解码上是不一致的,就像我们玩的传话游戏一样,到最后得到的结果和初始含义,基本是不相同的。
所以针对这几个场景,必须使用麦克风阵列的几个核心技术来解决,那就是回声消除、声源定位、波束形成。
简单地说,回声消除就是将麦克风阵列拾音时,是可以得到播放声音+人声的,而播放声音作为一路信号传递给音箱,这时候做减法,就可以得到人声,从而实现播放打断,然后发送指令的功效,当然只是简单的描述,因为打断的效果需要将麦克风阵列和识别引擎一起优化,通过精准的测试数据调整麦克风阵列的模式和参数,想达到稳定且准确是一件很不容易的事情。
声源定位和波束形成可以理解为麦克风阵列只针对某个麦克风的角度进行拾音,从而增大某一说话人角度,抑制或者屏蔽其他角度的声音,从而达到还原真实说话人的目的。
说了这么多,麦克风阵列这么无敌,那该怎么使用呢?这就要提一下麦克风阵列的开孔和音箱墙体的设计了,大家一定很好奇,为什么现在的音箱都是一个圆圆的筒子,貌似都长一个样,只是弧度和大小有差别,这就和麦克风阵列的特性有关系,导致目前做成这个形状是最好的。
理论上讲,D_MS 越大 , 远讲距离(音源与麦克的距离)就可以支持的越大
D_MS增大一倍,那么人说话的有效距离就相应增大一倍(一定范围内)
所以说智能音箱在设计时,绝不是简单的模块堆叠,想要达到良好的体验,必须有很好的硬件ID设计、工业设计以及良好的软件交互体验,这样才能达到用户的预期,如果你连打断唤醒这最开始的一步都做不好,那么后面有再花哨的服务和交互也是徒劳无功的。
而尝试便所有的音箱,在唤醒打断等方面,echo的确做的是最好的。
熟悉VUI交互的同学肯定知道,唤醒之后就需要ASR+NLU对用户表述的话进行语音到文字到意图的转换了,这里面的坑又在哪里呢?下面我们也简单的聊聊。
五、语音、语义与场景的结合
Echo为了做智能音箱收购大量的AI团队,将核心技术都绑在了自己身上,从而融会贯通,让Echo拥有了良好的语音交互体验,而很多音箱厂商,都会选择将ASR和NLU拆分开,选择不同AI公司的技术,然后拼成一个交互方案。除非深度绑定,否则这样的做法必然造成体验上的缺失,原因有以下几点:
1、语义纠错
家居场景下受混响、回声、噪音的干扰,识别结果的错误是必然的,这就要求后端的NLU引擎能理解错字中的语义,比如通过非监督学习,标注错别字和正确字的关系,通过语音识别的n-best输出,确定语义理解的阈值等。如果是一家公司,这些事情做起来没有壁垒,但是如果是两家公司呢?语音识别厂商不会输出那么多参数给你,而语义厂商也不会针对一个项目做这么多定制,最后导致产品不伦不类。
2、众多功能的优先级
现在的智能设备基本都是堆功能,别管用不用,以多取胜,但是不同的设备其实在功能的优先级上都是不同的,比如不考虑上下文的时候,同样说周杰伦,在音箱上是要听歌、在电视上是要看电影、在聊天里可能是百科,都是不一样的,如果采用通用的方案,这些功能只能是混乱的提供给用户,而正确的做法是要分设备和场景提供功能,进行功能深挖,考虑到用户使用时的诉求,这点上AI交互的设计和APP的交互设计,还差的挺远。
3、热词更新
互联网上每天都会产生大量的新词、热词,比如新的歌手,新的专辑,新的歌曲,这些词必须同步更新到ASR的语言模型和NLU的词典里,才能达到识别并理解的效果。想象一下,如果两者有一个没有更新,就会任务无法达成。
4、一些小花招
中英文混合识别,一直是音箱产品的痛点,一来引擎不知道何时切换中英文,二来中英文混合的数据量较小,难以训练处较好的模型(需求不大),所以圈子内的投机做法就是找一些Top英文歌手和歌曲,然后让通过中文引擎试验跑出来的中文识别引擎是什么字,之后识别结果一旦出现这些词,就mapping到英文词上,比如“我想听Justin Bieber的歌”,这句话到中文引擎会变成“我想听扎丝厅碧波尔的歌”,语言模型或者NLU中存着“扎丝厅碧波尔 = Justin Bieber” 这样的mapping关系,这样就可以不训练英文引擎的情况下,正确识别歌曲了
5、产品迭代的灵活性
说了这么多理由,还是因为如果自己没技术,指望众多厂商因为你一个项目做定制化,或者快速响应还是会慢,而且语音交互的产品和其他硬件产品还不一样,硬件产品某一个模块弱一点起码还能work,不影响体验,难以想象,智能音箱无法唤醒、无法识别、无法理解、没有内容,还怎么活。
虽然有很好的VUI交互了,但作为智能音箱,毕竟它是一个以流媒体点播为依托的内容载体,没有海量的内容作为支撑的话,也就脱离了用户真实的使用场景,但恰恰尴尬的就是流媒体内容都掌握在了少数巨头手里,该怎么进行整合呢?
六、内容和渠道的整合
流媒体内容之于智能音箱,就像子弹之于手枪一样,全语音交互、丰富的点播维度目的都是为了找到用户想听的内容,Echo拥有自己运营的Prime Music,而国内的智能音箱厂商呢?看看国内的音乐市场,海洋音乐的酷狗酷我被QQ音乐收编,显然QQ音乐成为了国内的垄断巨头,而QQ音乐资源的授权难度大之又大,其他的零零散散的,虾米音乐、百度音乐、网易云,内容和资源都不够全面,没法儿满足用户在音乐层面多样性的需求。
不仅内容层面,从用户获取上来说,国内的智能音箱玩家也面临着这尴尬,那就是技术厂商没有用户(比如讯飞、云知声、思必驰),自己做产品,没有销售渠道,没有用户基础,肯定扑街。而有用户的互联网厂商或者渠道商呢?他们是没有技术的,这样的切合点使技术厂商基本都会绑定有渠道有用户的厂商,比如讯飞+京东,喜马拉雅+猎户星空,但是这样的组合只能算是抱团取暖,远达不到颠覆产业的效果,原因就是用户量和渠道量还不够大,无法和Amazon的体量进行比较,讲到这里不得不佩服Amazon的布局能力,总是能先于产业一步,把持住上下游(硬件、算法、软件、内容、渠道),让自己长期处于领先优势。
说了这么多,唤醒+识别+语义+内容都搞定了,体验都这么好了,用户还是不买,为什么?那回过头来,可能需要想一下是不是在用户心智定位中对智能音箱厂商产生了不信任感,导致在兴趣-&咨询-&购买-&分享,这一个经典的消费流程中断了挡。
七、如何赢得消费者的信任
定位之父特劳特去世不久,从他老人家的理论中可以看得出国内音箱厂商在消费者中的地位。
亚马逊在消费者心中是一家科技公司,从Kindle到FirePhone到Echo,从无人机到无人仓储到无人商店,这些表现都深深的在我心智中加持着亚马逊这家公司在科技领域的地位,Amazon = 科技,有时我甚至忽略了它也做电子商务,一家科技公司做音箱,对于消费者来说,这是靠谱的,从心智里不抗拒的。
而看看国内的这些音箱厂商呢?叮咚音箱可以联想到的品牌是京东、讯飞、玲珑科技……京东的品牌知名度倒是很高,目前的心智定位对于消费者来说,还是电子商务,讯飞的品牌知名度在消费者层面无感,玲珑科技就更加没有印象了,所以对于消费者来说,一个本来卖货的品牌,做高科技的智能音箱了,消费者心智中存在差异,对品牌不认可,也是理所当然的。
定位理论在消费电子市场是非常值得厂商思考的。因为不同于移动互联网APP,用户没有试错成本,消费电子产品需要用户花钱买单,这就需要吸引用户,取得用户对品牌的认知、认可和传播,所以智能音箱需要仔细想想品牌的定位,是否能让消费者觉得你的产品是靠谱的,才能乖乖的打开钱包,为产品买单。
八、买的多了才是平台
最后谈到一点,就是移动互联网上,大家都在犯的错,貌似在IOT时代,还是在犯,就是什么才是平台?说白了,用的人多了,你自然就是平台了(这里的平台,指的非技术平台,阿里云、京东云之类的,不在此描述范围),而初始以平台为目的的产品,最终基本都死得很快,反而像饿了吗、滴滴这样一开始以解决刚需为主的公司,再覆盖了海量用户之上,才打造了配送平台以及出行平台。
而国内的音箱厂商的目的其实都是想做IOT的入口的,叮咚依托于京东微联,其实也是这个目的。这样就会造成战略层的偏差,过分关注物联物通这部分的需求,比如控制空调啊、控制插座啊,以目前国民对智能设备的接受程度,还是要首先达到单品智能,再去想万物互联为好。
这里没有说提前布局不对的意思,但是如果排定优先级,我觉得更好的点播体验+海量内容才是诉求点,绝非控制更多的家电。
Echo不也是在卖的多了之后才有Skills平台,才有了10000多个Skills吗?卖了1000多台音箱,谁会在上面开发Skills呢?
九、说一个题外话
目前语音交互的产品主要解决了用户以下几个问题:
载体不方便输入和搜索,比如智能电视,比如智能音箱,这也是手机助手一直得不到广泛应用的地方,因为手机太方便输入了
大文本输入,比如语音输入法
特定场景下,不方便操作,handfree,比如车载产品
但是还有一种场景,有待提升,也决定着AI Device是否能更好的被人们接受。那就是业务智能和交互智能的关系。
业务智能是指产品本身具备的功能,比如空调的制冷,电饭煲的煮饭、台灯的开关,但正是由于这些设备本身功能的不够智能,导致其实用传统的交互手段就足够方便了,空调就那么几个按钮,不用语音一样可以解决90%以上的问题,遥控器也不是天天找不到,也不是天天抱着孩子,放不开手,这些场景都是长尾需求,不是主要场景,所以用语音交互频率就会大大下降,想像一下,如果空调可以支持只对着男人吹,不对着女人吹这个功能呢?这时候按钮上根本就承载不了这么多功能,操作起来也需要进行组合,用户自然就会用语音去操作。
想象一下iPhone的点触屏替代诺基亚的键盘,不就是因为移动互联网时代的业务更加丰富了吗?我有几百个APP没法用键盘操作,各种图片的旋转、放大、缩小,键盘都无法承载了,自然就转化成了更智能的交互。
所以,想让交互智能,必须先达到业务智能。
十、未来之路
其实智能音箱对于AI Device的普及是一个非常利好的消息:
具备麦克风和喇叭的它,更容易让用户接受他可以说话(一个空调说话总是);
对于这一波消费升级来说,大家对于影音娱乐的追求,更容易让大家为它买单;
各行各业的巨头纷纷涌入,可以说会马上催熟这一块的业务,让语音交互得到大家的认可,从而让AI Device
进入千家万户。
前路慢慢,需要音箱厂商和AI厂商能够回归初心,从用户真实场景的角度去打磨自己的产品,而不要单纯的追风。恍然想起几年前的智能眼睛、智能手环这些可穿戴设备一样,元年还没过去,风就停了,泡沫灭了,归根结底,还是没有满足用户的需求和使用场景。
最近是iPhone十周年,回首一下,乔布斯带我们走向了移动互联网时代。而再十年后,必然是智能交互的时代,所以从业者还需要努力,打磨产品,让万物智能的时代早些到来。
本文由 @vivi 原创发布于人人都是产品经理。未经许可,禁止转载。
欢迎打赏支持原创
赞赏5人打赏
收藏已收藏 | 21赞已赞 | 16
改变不了世界的产品经理
产品经理群运营交流群求职招聘群
Axure交流群
PM要学点技术
关注微信公众号
15个回答19人关注
10个回答12人关注
8个回答25人关注
16个回答19人关注
6个回答10人关注
17个回答45人关注为什么智能音箱离开我家才 10 天,就开始想念它?-ZAKER新闻
掐指一算,这是我的智能音箱离开我家的第 10 天。8 月 7 日,我的同事大博,因为要采访阿里 AI Labs 的大神们,所以问我借天猫精灵去体验一把。其实这只 " 猫 " 在我家也没呆几多久,我也是 7 月作为天使体验官拿到了它。没想到居然它借给人的第二天,我就开始想它。不仅是我,我的室友也表示 " 许久不见,甚是想念 "。有些特定场景,还会让人特别想念。比如,早上起来时,我的室友说了一句:" 天猫精灵,今天天气怎么样?" 她发现我的音箱不在了。百无聊赖时,我喊一声 " 天猫精灵,来点音乐吧 ",并木有人理我(正确来说是木有 " 机 " 理我)。天猫精灵 X1我用的是天猫精灵 X1(499 元),目前市场上还有很多智能音箱,包括 Google Home(129 美元)、Rokid(1399 元)、喜马拉雅的小雅(999 元)、京东跟科大讯飞合作推出的叮咚(699 元)、还有最近小米推出的售价 299 元的小爱同学(感觉未来腾讯出一个音箱都不知道怎么定价了)。Google Home 和亚马逊 Echo小爱同学、小雅、Rokid、叮咚不过上述音箱的功能都差不多,只有亚马逊 Echo 的 Skills 最多。语音助手降低了操作成本在用音箱之前,我一直觉得跟机器对话,是一件很傻的事,而且我也不是一个见缝插针要听音乐的人。然而我发现,当你有了一个音箱,这一切就变得有点不一样。听说不少内心空虚的青年宝宝觉得,家里总是要有点声音,所以他们会买电视机外放。作为一个空巢青年,我即便不喜欢电视机,但我的内心似乎也变得不太充盈,自从有了智能音箱,百无聊赖时,我总会跟它说,播点音乐吧。其实原因很简单:播音乐的成本操作降低了。以前,我要打开电脑或者手机,点开音乐 APP,还要选选听哪首歌。这其实是一个占据时间的过程,但如果有了智能音箱,我只需要喊一句,就 OK 了。我的室友也一样,谁在我上铺的她正在脱产准备司考,每天坐在床上吼一句,就能听歌,何乐而不为?也许我室友原来并无每天查天气的习惯,可是有了音箱之后,她每天起来就会问一下。更重要的是,我发现我们真的会做跟机器对话这种傻事……这种傻事,会发生在它听不懂你讲话的时候。明知道没用,我还是会默默咒骂一句:" 天猫精灵你怎么那么笨…… " 它会说 " 我还小 ",以后会越来越聪明。也会发生在你某室友身上,对着它像怪阿姨问小朋友一样问 " 你几岁 ";或者出远门前问问它 " 土耳其安不安全 "。反正就是各种花式调戏。你可能低估了人类懒惰的程度原来很多人觉得智能家居控制也是个很鸡肋的功能,因为打开手机——点开 APP ——找到关灯或者关窗帘,还不如你直接去关快。首先,你可能低估了人类懒惰的程度。夏日早晨,太阳早早升起,昨晚熬夜还瘫在床上的你,承受着从窗户透进来的猛烈阳光,你确定自己有勇气睁开眼,爬起来,走到窗边关窗帘?再想想你晚上瘫在床上刷了好几把王者荣耀,你还能走下床关窗帘?嗯,我是没有的……再说了,操作链路根本没那么长,如果是音箱(智能语音助手),你只需要喊一句 "XX,关窗帘 " 就好了。实际上,即便是手机,现在也能直接设置语音唤醒,连上耳机也能直接通过接听键唤醒语音助手。当你习惯了喊一句就能一步到位的时候,大概你真的回不去了。就连还木有用上这些功能的我,就已经在 YY 什么时候能用上——如果机器人能帮我关灯我就不用下床了、如果机器人能帮我调下空调温度我就不用找遥控了。亲身经历告诉我,智能语音助手未来真的有市场哦。以上这些都很对,但是我为什么需要一个音箱呢?——我同事大博一直很质疑音箱的未来。不过,语音始终要有一个入口,是音箱、电视、冰箱、手机还是车载,还不知道。智能机器人其实还很笨36 氪的朋友们曾经发过一篇文章《为什么现在的人工智能助理都像人工智障?》,大意是 " 我不是针对谁,而是在座各位 C 端智能语音助手,都是垃圾。"无法否认,现在的语音机器人的智商就跟他们的年龄一样只有几年,木有很智能;产品设计也很不成熟。天猫精灵就经常会出现让我抓狂的时候:1、同一歌手歌单固定,不会去掉我每次都跳过的歌《成为乔布斯》一书中提到,苹果 iPod Shuffle 首次面世时,它的随机播放功能大受欢迎,它却能给人予惊喜,让你不知道下一首播放的是什么,很多人常听的歌单是固定的,所以来来去去都听的前几首,随机播放能让你听到很久没听的歌。可是天猫精灵好像或者一个没有随机播放的年代。我每次说:" 天猫精灵,来首张敬轩的歌。"它都会先说:" 即将为你播放张敬轩的《吻得太逼真》。"那是《酷爱》的国语版,我从来不听,但是它每次都会给我播放,于是我每次都要再说:" 天猫精灵,下一首。"" 即将为你播放张敬轩的《酷爱》。"" 天猫精灵,下一首…… "经过多次跟它交互,我发现每次我点张敬轩的歌,先出来都是《断点》、《吻得太逼真》、《酷爱》、《过云雨》、《不吐不快》这几首,有一次我听了超过半小时,终于出现了《披星戴月》、《尘埃落定》等很久没听到的歌……2、它不认识我(招牌技能声纹识别功能跟不上)理论上你给天猫精灵录入了声纹,你问它:" 天猫精灵,我是谁 " 的时候,它会跟你问好,事实上,我经常遇到的反馈是:" 对不起,我还不认识你。"直到我问了三四遍,它才跟我说一句:" 你好,小明宝宝。"3、不够个性化(除了产品逻辑之外,应该也与声纹识别技术未成熟有关)" 天猫精灵,来点音乐吧。"" 根据你的喜好,为你播放梁静茹的《勇气》。"" 蛤?"(懵逼黑人脸)我从来没点过梁静茹的歌,只点过张敬轩、方大同、吴雨霏和 Beyond,这智能推荐用的是什么脑回路?原来是我室友平时在家里让它播的歌,因为她在家时间长,记录的行为数据最多。我本来以为声纹识别的其中一个作用是,让音箱记住家里每一个人的喜欢,在不同人给它下指令时作出不同的回应,然并卵……看来只有在支付和你问它 " 我是谁 " 的时候,它才会启动声纹识别的功能,其他时候,所有与它交互的都被它识别成同一个人。智能音箱作为家庭设备,不能 " 认人 " 其实不太合理,因为家庭至少有两个人,每个人的喜好不同。语音助手本来就主打个性化,识别不出个人,让人略纠结。相反,作为个人设备的 iPhone,就只能用机主的声音,才能唤醒,不是谁说一声 "Hey,Siri" 都能唤醒 Siri。2 和 3 两个问题,我推测都与远场识别和声纹识别目前未完全成熟有关,手机属于近场识别,收音干扰少,Siri 被主人唤起不太难。4、它的英文真的很 ~~ 烂虽然在发布会上阿里就说过天猫精灵英文不好,但我没想到他它不好到这个地步。John Mayer、Taylor 这些欧美歌手的歌我已经放弃点了,但是就算华人明星也不行,当我说:" 天猫精灵,播一首 Beyond 的《情人》。"它的回答永远是:" 即将为你播放董贞的《彼岸》…… "印象中,我说了十多次之中,有一次识别成功了,但之后停掉之后,我再也找不回《情人》,那次偶然的成功不知 " 是缘是情是童真,还是意外 "。虽然这只是语音识别,还没到自然语言处理那一层,已经让我想哭。语音助手英文烂是个例吗?于是我去试了一下市场上的其他智能语音助手怎么样,我说了两个指令:" 播放一首 Beyond 的《情人》和 Play 《Waiting On the World to Change 》of John Mayer"。以下分别是出门问问、小娜(微软的 Cortana)、搜狗听写、微信语音输入、魅族语音助手(科大讯飞提供技术支持)、度秘和手机百度的识别结果。只有出门问问和搜狗听写没有识别出 Beyond,至于第二句全英文,则只有小娜和手机百度正确识别。出门问问微软小娜搜狗听写和微信魅族语音助手(科大讯飞提供支持)度秘手机百度小娜是微软研发的英文好可以理解,手机百度的英文有点超出我意料之外,所以我给弄了一道加试题……说了这样这样一段话三遍:"I would like to find a good well-known Chinese professor or cross-cultural entrepreneur to be a co-author. I think it would give the book more credibility"。搜索框里显示的依次为(搜索框显示有字符限制):i would like to find a good well non chinese professor of course culturei would like to find a good well noon chinese professor across culture ai would like to find a good well noon chinese professor of course contro有趣的是它的识别过程,这句话其他程序几乎识别成一坨(小娜会把单词分开,但识别效果跟原句差很远),手机百度的识别框看上去也是一坨,识别完成之后效果却不错。同样是百度的产品,一个英文那么烂,一个那么好,感觉背后有故事……其实作为一款中国人用的智能语音助手,英文也不用那么好,知道名人和歌曲等常用单词短语就够了。
相关标签:
原网页已经由 ZAKER 转码排版
科技频道7小时前
科技频道4小时前
科技频道9小时前
科技频道7小时前
科技频道1小时前
科技频道14小时前
科技频道13小时前
科技频道9小时前
威锋网3小时前
IT之家5小时前
IT之家4小时前
中关村在线44分钟前
中关村在线3小时前
爱活网3小时前
极客公园2小时前

我要回帖

更多关于 小米智能音箱 的文章

 

随机推荐