引言
时间已经进入到2018年,人工智能热度火已经烧遍全球,在这其中,智能语音助手更是热中之热,甚至肩负起了下一代流量入口的巨大使命。各大互联网巨头不断加大对这方面的投入,发布了自己的拳头产品。同时,做垂直或者通用领域的创业公司也是层出不穷,竞争很是激烈。
笔者在此对其中一款比较有特色的产品-小不点安卓智能语音助手,进行全方位解读,同时提出一些自己对该行业未来发展的看法。
一、产品简介
小不点,是一款专为安卓操作系统打造的智能语音助手,由来自北京的创业团队奇点机智打造,于2016年底面世。
最开始时与乐视手机深度合作,以乐视手机的系统默认语音助手的身份面世。目前作为一个独立的语音助手,已经在华为、小米、联想、OPPO、vivo应用商店中上线。
该产品的特色是:用户通过语音命令的方式即可操控手机应用中的各项功能,解放双手与屏幕的交互。
二、产品定位
智能语音助手,顾名思义,就是获取用户的语音输入,帮助其完成制定的任务或者提供相应的服务。
目前市面上绝大部分的主流语音助手,如Siri、灵犀、度秘、微软小娜等,都是做成一个有完全独立界面的App。有了独立界面的App,不但承载了工具的属性,也担负着各家对于引流的要求,最终的结果就是一个臃肿的语音助手。然而,有着如此之多页面的App,还是100%的“语音”助手嘛?这个问题,还是留给读者自行思考吧。
小不点安卓智能语音助手,并没有走这些主流路线,而是化繁为简,去掉了绝大多数语音助手的独立界面,尽可能的把用户的双手从屏幕上解放出来,让普通手机用户从GUI的时代向CUI(Conversational User Interface) /VUI(Voice User Interface)的时代迈进。
三、独特技术分析
一些主流的语音助手,之所以无法做到100%语音助手的属性,是因为整合第三方App的API,必然涉及到大量的业务谈判。比如微信不开放语音的API接口,其他的App就无法实现语音付款之类的功能。如此一来,想要帮助用户实现复杂场景的任务就显得遥遥无期。
而小不点,直接通过安卓系统的无障碍/智能辅助访问权限,做到了模拟用户点击的行为,从而跨过了第三方API的限制,实现对手机的操控。
除此之外,作为一个语音助手,也必然应用到了语音识别、自然语言处理、语音合成、机器学习等技术,在此暂不展开赘述。
四、产品分析
(一)功能梳理
在这里从常用功能方向上对小不点进行一下梳理:
(二)功能详解
接下来挑几项主要功能来进行详细说明
娱乐向
-
简单对话
大部分简单的对话可以正确识别,比如“讲一个笑话”,“你有女朋友嘛”,“来段bbox”诸如此类。但是经过测试,除了讲笑话以外,回复内容不变,所以基本上可以判断是固定的回复。无法识别的对话,基本上就直接调用手机浏览器百度搜索了,不能说处理的有问题,但是不免让普通用户怀疑此助手是否真的智能。
信息服务
查询周边信息
一般的使用场景,如查找附近的餐馆、酒吧、电影院、ktv等,多轮对话是必不可少的一个功能。在这里,小不点还没有支持多轮对话功能,可能还是与当前产品战略有关,还是已代替用户操控手机为主要目标,所以并没有花费精力在这方面,只是把用户指向了百度或者大众点评。-
获取资讯
此场景下最高频的需求可能就是天气了,在向小不点查询天气时,只是简单的识别出来用户的目标城市,然后其余的交给百度去搜索。
分析到这里,可以看出,小不点对于信息获取查询方面并没有花很大的功夫,而是基本上都交给了百度搜索去处理了。百度搜索出现的频率如此之高,不免给人诚意不足的感觉。
可能创业团队要做到多点开花不太现实,还是把主要精力放在了拳头方向--替代用户操作手机上。接下来我们重点看一下在操控手机上面的表现。
PS:由于录屏App也需要占用麦克风,与小不点冲突,所以无法录屏制作gif,只能用直接拍摄屏幕的方式来呈现。
系统应用浅层操控
由于系统级的应用一般都没有很深的页面结构,而且API也都是开放的,所以小不点能够很容易的做到覆盖大部分常用的系统功能。
-
设置闹钟
基本上一次成功,速度很快,设置成功之后会弹出一个Toast+语音播报,但是没有在闹钟的页面停留,这里停留个几秒,让用户亲眼看到设置成功比较好。
打电话
可以实现数字拨号,联系人姓名拨号等常用功能,可惜小不点没有语音唤醒功能,不然在驾驶环境下会非常好用,完全不需要用手操作。-
发短信
能很好的拆分动作,对象,内容,但是存在着语音识别准确性的问题,对某些简写或者流行词,并不能给出准确的汉字。
比如下面测试的,“给亮亮发短信说赶快上王者”,识别成了“给亮亮发短信说赶快上网者”。虽然并没有准确的识别出“王者”,但是读音一致,不会很影响对方理解意思(论手残党的语音版)。
其他的一些设置
其他的一些低频使用的系统设置,比如换壁纸铃声,打开热点之类的,小不点会快速直接的抵达目标界面。对比用户亲自用手点击设置,进入相应的页面,节省了不少用在寻找相应设置项的时间。
第三方应用深层操控
终于来到小不点的主推功能了,就是在没有深度对接第三方App的前提下,模拟用户点击的行为,实现交互。
-
发红包
发红包是小不点对外主要宣传的卖点,在去年某品牌手机的发布会上,就现场演示了用语音助手发红包的功能。笔者在这里之所以也选择发红包来做演示,一来我们日常生活几乎每天都会接发红包,是非常高频的需求,二来发红包的界面非常深,从点击微信的图标算起,至少要经过6次点击操作,才能达到预备发送状态。单单一句语音指令能减少如此多的步骤,对普通用户会有很大的吸引力。
通过演示,可以看到,小不点很好的完成了到确认发送之前的步骤。当然“塞钱进红包”这事,必须还是要用户亲手来确定的,毕竟涉及身份验证,这一点什么助手都不能替代用户操作的。
小不点也支持App页面内语音支持,比如,在微信聊天页内,直接说出“输入XXX”,“发送”,就可以发送微信消息了。不过总体来说,可以支持的页面并不是特别多。
至于其他的深层次功能,比如“用网易云音乐听七里香”、“查看淘宝订单”等,小不点也都可以不错的完成,这里就不一一演示了。如果识别出来的App手机上没有安装,还会贴心的如下图所示,提示用户先去应用商店下载。
(三)产品界面
-
GUI
从上面的截图还有gif动图中,都可以清晰的看到,小不点并没有自己的独立界面。只是在语音输入时,保留了一个麦克风的图标在底部,一个输入框用于展示识别出来的文字,屏幕剩下的地方全部做透明处理,整体悬浮在页面之上。
而在执行操作时,如下图所示,更是简化到仅在屏幕最顶端留有一条banner来提示用户当前执行的命令。可以说是尽量的剔除了UI中G(Graphical)的属性,让用户尽量多的把注意力放在语音命令的身上。
- VUI
目前业内对语音交互,暂时并没有一个统一的定义,目前出现的比较多的提法是CUI(Conversational User Interface),即对话式交互。
笔者认为,CUI这种提法用在Siri、Cortana身上比较合适。比如Siri在寻找附近的餐馆的时候,能够通过多轮对话完成餐馆寻找、推荐、定位、导航等功能,而且精准度很高。
而在小不点这里,能做到的是单独一条一条的完成用户的语音指令,把用户的双手从手机屏幕上解放出来,所以笔者认为,Voice User Interface更贴合小不点的实际。
语音识别
不过可惜的是,目前小不点并不支持语音唤醒功能,只能用快捷键直接唤醒,用户体验上稍微差了些。
在用户进行语音输入时,位于屏幕顶部的文字框会实时显示用户说出的文字,体验还算不错,总体语音识别准确率还不错。但是如果切换到方言,准确率则会有显著下降,想必这也是小不点在招聘语音标注实习生的主要原因。
此外,以上所有测试全部在室内完成,对于室外复杂的语音环境,语音识别的表现也是有显著下降的。
因此,复杂语音环境下的准确率,以及对我国复杂方言的支持,是语音识别必然要克服的两座大山。
语音合成
在完成用户指令时,小不点会用语音播报的形式通知用户。但是在目前的技术条件下,合成的语音人工色彩还是很浓。
不同于文字,人类的语音天生就富有感情,在与另外一个人的对话中,我们根据对方的语速、声调、音色、节奏等信息,就可以了解到对方的状态。而对方的状态,也能影响到自己的情绪。这样一来一回,就有了交流。
然而不带有感情色彩、冷冰冰的机器语音,无法对人类语音中丰富的情感做出有效的反馈,总是“热脸贴冷屁股”,时间一长,用户也会刻意让自己的声音不带有感情色彩,像机器人一样说话。这样一来,就失去了“自然”的感觉,在使用小不点的时候会觉得很尴尬,不自然。
因此,情感化的合成语音,必然是下一步要改进的方向。有了情感,小不点也就有了自己的人格,才会更好的服务用户。
五、竟品分析
从上分对小不点的论述来看,同类型的产品在市面上,最接近的就是三星Bixby,可以说是两者的思路如出一辙。
笔者手上没有三星的手机,无法做到实测Bixby,所以在这里只简单的分析一下。从各种测试视频中的表现来看,Bixby对于各种第三方App的操作,跟小不点不分伯仲,而且在以下四个方向上具有很大优势:
- 更简化的GUI
如上图所示,Bixby做到了比小不点更精简,只保留了一个悬浮的小图标跟信息框,可以说,“助手”的形象更为饱满。 - 语音唤醒
小不点目前不支持语音唤醒,而Bixby可以通过“嗨Bixby”一句话唤醒。看似简单的功能,实际上对于语音助手来说是及其重要的,因为这是让用户摆脱用手点击屏幕,培养其使用语音命令的第一步。 - 丰富的应用内操作
由于有了语音唤醒,应用内操作也就变得顺利成章。比如在网易云音乐中,用户可以通过“嗨Bixby”唤醒,发出一些指令,如”播放下一曲“、”播放我最爱的歌曲“等一些常用操作。在这方面,小不点还需要迎头赶上。 - 语音合成
目前Bixby合成出来的声音,已经能够听出来带有一点点感情色彩了。这一点在用户体验上,比冷冰冰的机器合成音好了很多,终于能够感觉到是一个“她”的助手的存在。
六、产品前景
(一)战略定位
作为一款手机语音助手,尤其是目标是向着CUI/VUI进化的产品,最理想的定位是手机系统自带的级别,如苹果的Siri、三星的Bixby。
可以说,与Bixby神似的小不点,最理想的定位也应如此。然而由于语音助手承载着各大手机厂商对于下一代流量入口的巨大期望,因此几乎可以想象,很难会有谁拱手把如此重要的产品托付给第三方团队来完成。
之前唯一争取到合作的乐视手机,小不点也是改名为“小乐”作为系统自带的语音助手出现,普通用户几乎不会注意到背后的奇点机智团队以及小不点这个产品。
而独立运营的小不点,如下图所示,数据显示累计下载量仅有6万左右,可见普及率还是很低。
因此,在坚持产品独立运营的前提下,加强与手机厂商的深度合作,该是其重点推进的方向。
(二)改进空间
人工智能语音助手,经常被用户调戏为“人工智障助手”,普通用户对语音助手的表现总体不太满意,接受度依然很低,“试玩”的心态居多,还远远提升不到依赖的地步。而且用户对于GUI的使用,惯性是巨大的,想要指望现有的产品颠覆现有的人机交互方式还不太现实。
话虽如此,小不点这款产品,也让我们看到业内人士对于改变现状的巨大渴望以及做出的努力。
以下几个方面是个人认为小不点目前应该重点提升的地方:
- 语音识别的准确率(尤其是复杂语音环境以及对方言的支持)
- 尽可能减少调用百度搜索的场景
- 更加简洁的GUI
- 更好的支持App内操作
七、总结
小不点这款产品依靠语音识别、自然语言处理、语音合成技术,辅以无障碍/智能辅助访问,创造性的打造了一款能代替用户操作手机的手机智能语音助手,代表了该团队对于现有的语音助手现状的不满,是对未来手机语音助手发展方向的一次有益的尝试。
当前人工智能产业还处于起步阶段,多应用于提升现有业务的效率,单纯的人工智能产品还是凤毛麟角。对于语音助手到底会发展成什么形态,各厂家还是处于探索试错阶段,总体而言仍是个蓝海市场。
在人工智能在自然语言处理方面有突破性的成果之前,面对2C用户的复杂多变的场景需求,当前阶段的手机语音助手也很难逃脱“玩物”的命运。
而未来小不点是否会坚持现有产品方向,产品形态是否会有更大的变化,在很大程度上也取决于人工智能技术会取得多大突破,这些,就让我们拭目以待吧。