一直以来,我们使用的是以视觉界面交互为主的3C产品。iphone,Google Glass,Apple Watch,以及增强现实的Magic Leap, Microsoft Hololens,这些产品都在主打视觉交互,期望用户在视觉界面上完成他们的需求任务。这些产品需要用户将全部注意力都集中在界面上,用户需要专注于界面的交互体验,因此,无法在同一时间做其他的事情。然而在现实生活中,我们往往并不在同一时间只专注于同一件事情的。而语音交互在这方面则具备潜在的优势,它能够让你在同一时间处理多项任务。值得注意的是,最近几年针对语音交互的体验设计研究开始兴起:Android和iOS 手机开始构建自己的语音交互生态,智能汽车为了解放双手,也开始研究语音交互的玩法。这些都证明了企业和市场对于语音交互潜在优势的的认同。语音交互开始逐渐进入到人们的日常生活当中。
当你在专注于某一件事时,最快捷的在同一时间获取其他事物相关信息的方式就是语音交互,它不会被图像交互所打扰。
想象一下,当你在骑行的时候,Siri在你耳边提醒你临近会议的准确时间和地点,并为你语音导航,同时为你口述刚刚收到的短信息—所有的动作都没有打断你的骑行运动。这就是语音交互的优势所在。不过这只是我对于Siri语音交互的未来期许,现实情况是Siri在Apple Watch上只提供视觉反馈,并没有像iphone和ipad上一样具备语音回馈。而通常当我在使用语音请求时,我的眼睛和手常常在忙于其他的事情:当我正在骑自行车回家的路上时,我会对我的watch说,“Hey Siri,开始自行车健身课程。”然后我不得不在骑行过程中低头查看我的watch是否打开了健身应用并且开始记录我的进程。这是及其不方便的,并且很危险。
语音交互在场景化的体验中能发挥更好的效果,因为语音本身就是一个对话的过程。当你置身于特定场景下时,你的语音指令才具备特殊的意义!
当你在高速公路行驶中对你的辅助驾驶系统发出“slow down”的指令时,系统会将速度由120公里每小时降到100公里每小时;而当你在市里的道路行驶时”slow down“的指令可能会使你的车速从60公里每小时降到40公里每小时。
怎样设计语音交互体验,才能使其发挥场景化的优势?Nielsen的启发式可用性原则依然适用于语音式的交互方案。
系统状态的视觉反馈
亚马逊的语音产品Echo,是一款场景化的语音交互智能硬件。相比Siri和Google now,亚马逊的产品团队充分理解了语音交互场景化的潜在优势,并结合自己的电商基因,将Echo打造成了更加智能的私人家庭助理。下图是Echo的升级产品Echo dot,将与近期发售。
Echo内置的LED 灯可以提示Echo是否接收到了语音指令,但不像视觉界面,用户并不能从中理解系统处理语音指令的过程。语音交互需要花费更多的精力判断和预测用户指令所处的情景和上下文关系,并且向用户解释其所处在流程中的什么位置。
预防错误和及时更正
对于设计师与开发工程师来说语音设计中最困难的就是要面对大量无用的语音输入信息。交互过程中的语音输入是无法像GUI那样规范化的。在GUI中,用户可以借助文字提示和视觉界面组件来引导他们完成操作;标题,导航条,按钮,留白等无时不刻的引导用户完成页面跳转操作。相比之下,语音交互的流程显得更加直接。在语音交互中,用户只能依靠有限的语音提示以及短期记忆来完成操作,这就需要设计师将流程简洁化。设计师需要去设计一套尽可能的避免用户错误语音输入的流程,以及预测用户可能的错误并及时提示用户纠正错误。像GUI那样去有意识的设置语音输入的流程和规则只会增加语音交互流程的复杂程度,同时也会提高错误率。运用云计算、大数据、神经网络、智能学习等技术来帮助系统识别用户的自然语言、判断用户指令是目前的主流研究方向。
现有的第三方智能语音服务商有很多,国内如科大讯飞,对于自然语言的理解错误率已经降低了许多。Echo能够主动检测到激活短语,尤其是在现实环境中常见的的杂音背景下—比如当产品在播放音乐的时候给它一个语音指令让其停止。
Echo Alexa对于自然语言的理解能力很强,并且能够在在复杂的背景音中辨别语音指令。这是更加符合真实使用场景的设计。Alexa能够根据情景和上下文关系来判断指令:当你发出设置一个新的倒计时时,Alexa很准确的作出判断并回应,“第二个倒计时设定40分钟,现在开始倒计时”,Siri则这样回应。“你的倒计时已经运行,还有9分42秒,想要更改它吗?”
用户操作的自由度、效率以及流畅度
在视觉界面交互中,用户的行为指令已经被预先设计好了,通过识别下滑、点击、双击等交互行为以及用户所处的页面位置,系统能够快速判断用户的指令并作出准确的反馈。而在语音交互中,用户可以发出不同的语音指令来期望获得同一个反馈,而系统需要去分析输入指令所处的场景和上下文关系,从而做出准确合理的信息反馈。比如,在GUI中,标有“yes”文本的按钮代表着“是”的指令,而在语音交互中,用户可以使用以下语句:“Sure”,“Absolutely”, “Uh-huh”, “Yes, please”。
虽然不如可穿戴设备那样随身携带,但Echo Alexa能够在一定距离内高效精准的判断语音指令,即使是在复杂的背景噪音下;你还可以在做其他事的同时向Echo输出指令,一心二用,这意味着在可检测距离内Echo的灵活性要高于搭载Siri的移动设备。
简洁明了是关键
在文章创作中,我们可以将要表达的信息内容全面详细的写下来,文章的关键信息会隐藏在段落中,通过直述、隐喻等表达方法展示给读者。我们不会期望读者会阅读每一个文字,只要读者能够体会到文字的含义即可。但在语音交互设计中,这样的写作手法是奢望且不被允许的。所有的信息需要简洁明了,任何复杂的表述方式都有可能让用户陷入困惑。在心理学设计中已经提到,人类的短暂记忆只能记住最多4到5个事物(请查看之前的文章:设计心理学书籍推荐),这就限制了语音交互产品每次向用户展示的信息数量。
善于引导
尼尔森的另一个启发式可用性原则:“引导强于记忆”。交互设计师在GUI设计中会想方设法的通过使用隐喻式设计来引导用户去操作,减轻了用户的记忆负担。而在语音交互中,隐喻式引导设计却无从下手,用户需要记住回到菜单或上一页的方法,系统必须试着去理解用户指令的意思,并且输出恰当的提示引导用户正确的操作,而不是误导用户、让用户不得不重启整个流程。一个在任何时机下都可触发的“help”指令是必须的,当用户在忘记具体操作指令的时候及时得到系统帮助。
除了遵循尼尔森的启发式可用性原则之外,为了增强对场景化的理解,语音交互系统需要更加智能的去自主学习用户与环境,大数据的辅助也能够更好的加速这一进程。受制于人工智能与大数据的总体发展与应用的限制,Echo也存在很明显的劣势,那就是无法理解复杂的语句。例如线上购物,当你一件一件的添加商品到购物列表时是很容易的,但当你一次性的输出多个商品指令时,Echo经常会“误解”你的本意,例如下面这段对话:
User: Alexa, add milk to the shopping list.
Alexa: I’ve added milk to your shopping list.
User: Alexa, add eggs to the grocery list.
Alexa: Eggs added to your shopping list.
User: Alexa put butter on the shopping list.
Alexa: I’ve added butter to your shopping list.
User: Alexa add cereal to the shopping list.
Alexa: I’ve added cereal to your shopping list.
User: Alexa put cheddar cheese on the shopping list.
Alexa: Cheddar cheese added to your shopping list
User: Alexa put sugar, flour and salt on the shopping list.
Alexa: I’ve added sugar flour salt to your shopping list.
总结
语音交互是更具有场景化的体验设计方法。它能够帮助用户在特定场景下同时完成多项任务和工作。语音交互在设计上相较于GUI会面临更加苛刻的条件限制。在没有视觉反馈的情况下,语音交互系统需要充分的理解用户所在的场景与用户习惯,精确判断用户的指令与上下文之间的关系,并结合场景做出正确的反馈。受制于用户的短期记忆能力和语音信息的繁杂程度,语音交互流程应当更加简洁直接与多样,并预先评估用户可能的语音指令,以便做到快速理解和迅速反馈。适当的语音反馈与引导可以帮助用户减轻记忆的压力,并避免用户迷失。充分借助云计算、大数据、神经网络、智能学习等技术来帮助语音交互系统增强对场景和用户的理解。