用户研究的目的在于:从真实的用户中收集无偏差(unbiased)的数据并应用这些数据来设计更好的游戏(产品)。
然而,“无偏差的研究者”并不是一个容易达成的成就:你必须要增加你的投入,包括精力和经济的投入(更仔细而谨慎的设计和执行研究方案、测试更多的用户等等);更多的时候还不得不努力忘记辛苦获得的知识和经验(就像谁谁谁一样3秒钟变成小白用户)。
来自微软的游戏用户研究员Melissa Boone和Jerome Hagen在今年GUR大会上分享了在游戏用研过程中可能产生的认知偏差以及如何减少这些偏差。
虚假一致性偏差(False consensus bias)
即在某种程度上我们会忽视自己的特殊性,认为自己能够代表大部分的用户群体并主观的扩大化自身特性的普遍性。这一偏差会使得游戏设计者认为普通的玩家能够使用和他们一样的方式去享受和评价游戏。
在这些情况下,就需要研究人员有意识的去忽视自己对于产品的知识和经验,变成小白用户了。但糟糕的是,即使是这样,在和用户的沟通中也仍旧面临着所谓的“知识偏差(Curse of Knowledge)”---你很容易下意识的假设和你沟通的用户与你有着类型甚至相同的知识背景。
对,在告诉了我们这是个难题后,Boone和Hagen在接下来的40分钟里就再没提过这一偏差了。所以我觉得他们一开始就分享这个偏差的原因是提醒我们---如果再有人以“我身边的人可不是这样”的理由质疑你的研究结果,请在虚心解释的时候默默的自我安慰:我才不和你们一般见识呢,你们这些被认知偏差统治的战5渣。
易得性启发式(Availability heuristic)
即人们总觉得最容易获得的信息同时也是最重要和最流行的。Hagen给出了一个例子:在光晕的某一版本中针对是否需要增加“疾跑(sprint)”这一功能,开发团队在beta测试过程中从游戏的在线社群中所了解的结果是喜欢和讨厌这一功能的人群各占一半;而通过对更多和更广泛的用户研究得到的结果却是只有13%的用户不喜欢这一功能,而他们也更多的活跃在游戏社群中。
这一认知偏差是能够有效避免的,通过1) 收集更多玩家的相关数据;以及2)收集那些代表性不足的玩家的数据。Hagen分享了一些如何避免易得性认知偏差的小技巧:
第一步,了解你的研究参与者中缺失了哪些人。这一阶段可以通过评估玩家的行为模式来判断是不是某些行为模式的玩家代表性不足;同时也别忘了在必要的时候招募一些潜在的玩家参与研究。
第二步,扩大研究范围。根据需要,这一阶段可能有着多个意图:首先肯定是招募那些代表性不足的群体;其次则是需要根据开发时间安排来进行一些小型的、不够正式的研究(如游击式用户测试)来弥补正式研究中的缺失;最后则是对于研究环境的范围扩充,包括虚拟的网络环境和真实的物理环境,比如用于课堂的产品可能需要在真实的课堂教育环境中去进行一次测试。
社会影响性偏见(Social Influence Bias)
即我们的行为和决策会因为其他人的行为和决策而改变,听到他人的意见也会影响我们的想法和说法。心理学中有一个经典的实验专门研究这一现象,同时13年发表在《Science》上的一篇文章也指出在在线评论中也存在这样的社会影响性偏见:积极的社会影响使在线评分平均增高了25%。
在用户研究中,这一认知偏差通常出现在焦点小组或者是多人可玩性测试等多个玩家同时参与的研究方法中。在焦点小组中,有经验的主持人能够通过压制过于积极的表达者和引导参与者表达自身的观点来削弱这一认知偏差的影响。而在多人可玩性测试中,则很难避免这一效应了---即使是某个参与者过早的结束某段测试都可能激起其它参与者的好胜心而超常发挥,Boone指出可以通过将多人测试当做一个“单位”进行分析,或者通过不断的随机分配小组成员来削弱偏差的影响。
同时,通过追问玩家的细节体验也能够减弱这一偏差的影响,而不要仅仅停留在好或者不好的层面—如追问“疾跑”这一功能对于玩家而言意味着什么?有什么影响?
以上三种是较为普遍的认知偏差,Boone和Hagen接下来还介绍了一些在用户研究中可能导致数据产生偏差的效应。
自我身份(群体)认知
说出来你可能不信,有时候只是让用户知道自己是个女性也可能降低她在测试过程中的表现,这一现象在心理学中被称为“刻板印象威胁(Stereotype threat)”:如果研究参与者曾经被灌输过“女生玩**就是坑”的观念,而她又恰巧在参与这一(类型)游戏的研究过程中被提醒和强调了自己的女性身份,那么她在研究中的表现就很容易低于日常水平,导致数据出现偏差。
自我认知还可能通过很多方式影响数据的公正:比如在甄别问卷中覆盖的玩家类别不全,或者是在不愿意回答的问题上胡乱勾选,都有可能导致某些玩家被强行划分到其不太符合的类别中去。
幸运的是,我们能够通过谨慎的研究设计和执行避免自我身份认知对数据造成的偏差:
1. 更加全面而仔细的招募工作
a) 确保在问卷中让玩家划分自己的类别的时候一定要有如“其他—”这样的开放题选项并对答案进行及时分析以判断是否有遗漏的选项;
b) 保留玩家拒绝回答某些题目(如收入、性取向等隐私性较高的题目)的权利;
c) 保证招募的小组成员中呈现足够的多样性;
d) 在做国际性招募的时候确保提供一套“本地化”的招募问卷,以及请法务团队评估是否有某些地方法律不允许询问的问题(如性取向...总有个别游戏需要招募特定取向的人群...);
2. 在研究过程中保持相应的敏感性
a) 从一些不太敏感的话题展开研究,和参与者快速建立共同利益;
b) 在测试的结束阶段再询问一些关于参与者身份或群体认知的问题;
c) 强调测试的对象是产品或游戏而不是参与者本身;
糟糕的过往
糟糕的过往可能在两个方面上影响我们对数据和信息的收集:
1. 对于游戏中的糟糕经历,玩家有着较高的忍耐和报告标准---即使是直接的询问是否有过某些特定的负面经历(比如性骚扰),玩家也通常不愿表达。
2. 用户会根据过往的经历修正对现实的认知---比如对于游戏类别的判断,Boone讲述了玩家可能曾经在射击性游戏上有着不愉快的经历就将自己定义为“非射击游戏玩家”,所以即使在之后这个玩家每天花费7~8个小时在射击游戏上,他也不认为自己玩的是射击游戏,并会将这款游戏的类别扭曲为其它诸如“角色扮演”等。
如何避免糟糕的过往经验对数据收集的影响:
1. 询问用户所知道的“其他玩家的不愉快经历”--- 相对于自身,用户总是更愿意和别人分享“我有个同学”/“我有个朋友”的故事;
2. 对希望了解的信息一定要具体,尤其是在询问不同游戏类别的行为信息的时候,最好能够举例说明具体的游戏;
3. 从不同的角度追寻同一个问题,通过走查的方式理解用户对游戏中满意和不满意的具细;
4. 注意在研究过程中的询问方式,使用中性的语言,避免诱导用户的想法。
最后的坑:道德认证效应
你可能通过孜孜不倦的努力在多次用户研究过程中达成了“无偏差的研究者”这一成就(首尾接应...无聊者的恶趣味)。但在这个时候尤其需要注意不要妄自尊大了,不然可能很容易受到“道德认证效应(Moral credential bias)”的影响:即你在曾经公正行为的过往会使得你在后续工作中产生偏差行为的可能性远远高于平均水平。
所以... “无偏差的研究者”并不是我们在游戏中达成一次条件后就能过永久保留的成就,只要你还在进行着用户研究的工作,你就不得不时刻警惕着研究过程中可能会产生偏差的来源。