2018.09.28 Marc Ernst 教授在北京大学英杰阳光厅做了题为“自然与人工智能:知觉,决策和行动”的报告。
教授将重点为我们介绍在现实和虚拟现实的条件下,人类知觉和动作过程中的多感官信息是如何实现整合的,其中包括如何利用先验知识和推理并在贝叶斯建模的框架下理解知觉与动作的耦合,以及特殊人群(剥夺了视觉经验的儿童)的大脑可塑性。介绍内容在方法学上将突出虚拟现实技术与认知神经科学手段的整合应用。
AI 和人的比较
Marc Ernst 认为,AI 的目标是犯更少的错误(make less error)。他比较了 AI 和人的功能,认为 AI 在精确加工中更优,但在模糊性、泛用性较高的场景下,人类依然占绝对优势。
人的信息加工过程
那么,人是怎么处理信息加工过程的呢?我们从外界获取的信息不可避免的存在噪音和误差,因此信息加工实际上是一个概率推断过程——根据带噪音的信号推测真实物理世界。接下来,Marc Ernst 从信息输入、先验经验、行为结果三个方面作了进一步说明。
信息输入
信息输入过程中的误差
Marc Ernst 首先在现场举了两个很常见的简单视错觉例子。同样的局部信息放置于不同的情境或者背景中,视觉系统对它的知觉效果会截然不同。这反应了大脑对信息整合的过程。
视觉和听觉信息的差异。
- McGurk Effect:baba or gaga
- Tune and Dot
视觉和触觉信息的差异
- science 1964
人脑如何处理这种误差
这里 Marc Ernst 介绍了他那经典的最优化整合模型(Optimal Estimate)。在此不赘述。
先验信息
我们生活中也有先验信息的例子。大家都会有这样的经历:坐在车厢看站台对面的火车,感觉是自己所在的车厢在动;等到对面火车驶离,才发现自己的火车还在原地。这里,静止的外部世界就是一个非常强的先验信息。我们所能观察到的是我们和外部的相对运动,我们假设外部静止,从而推断出自己在运动。“外部世界是静止的”这一假设在平时极其稳定、强大,因此在车站情境中,我们才非常容易产生的错误感受。
另一个例子是“光线从上方投下”(light from above)。无论是自然光还是人造光,它们都是在上方洒下,我们完全适应这一点而不会有所察觉。在观察图片时,我们也会假设画面中的光线来自上方。在这个例子中,改变图片的方向,我们的大脑不会把整个画面(光源-物体)旋转,而是依然假设光源来自上方,从而感觉到两张图片有“凹-凸”的变化。
先验信息何处来?我们通过生活中的经验,在数据中学习到了这些先验信息。一个常见的简单例子是音调高低和位置高低的相关关系。Marc Ernst 用现场实验展示了这一点。播放一段不断升高的纯音,让观众随着音调抬高自己的手臂。纯音的时长和起始音调相同,最后音调越高,观众手臂抬起的高度也越高。实验者们在志愿者身上绑上传感器,记录日常中声音的音调和音源位置,得到了频率-位置的统计图。二者有较强的相关关系。这一点在语言上也有体现。各种语言中,描述音调和位置都会采用同样的形容词,如“高、低”,“high、low”。
另一项证据来自于 Marc Ernst (2004) 发表在 Nature Neuroscience 上的研究。通过短暂(1.5h)的学习,被试就能够适应新的先验经验。
AI 在这一方面并不能像人类一样好。但先验知识也不一定总是有效的。它依赖于个人经验,当环境变化时很可能带来错误。
行为的误差
我们发出的动作不会是完全精准的,需要根据结果来调整。有两种模型。
- 前馈控制(feedforward control):有模型假设,根据输入信号直接调整,快速
- 反馈控制(feedback control):无模型假设,根据结果的反馈慢慢调整,较慢
我们会学习行为误差吗?对于系统误差和随机误差都会学习,前者的学习更快,曲线更陡峭(行为结果见 JoV 2018)
- 没有模型就没有预测
- 模型变化时,遗忘就格外重要
学习
最后 Marc Ernst 介绍了 Itay Ben Zion 的工作。某项能力究竟是天生的还是后天习得的?这是每个研究者都会好奇的问题。有很多经典的动物实验,会控制新生动物的成长条件,从而能够直接比较。但这种方法显然不能用在人身上。研究者们往往只能通过间接实验来推测。但是先天性白内障患者为视觉研究提供了绝佳的机会。他们天生无法获得视觉信息,但是经过手术后可以马上恢复。 Itay Ben Zion 在非洲同公益组织一起工作,在手术前后对这些儿童进行了各种视觉测验,得到了宝贵的数据。
数据见图