文章通过人类被试的实验来检验rule和exemplar representation模型,在这之后作者对二者在分类学习上的结合进行了讨论,并且提出一个新的学习模型(链接模型——ATRUIM模型)通过新模型的拟合与被试实验进行比较来检验链接模型的适用性。
Rules模型认为分类的规则一旦确定,那么刺激的频率是不会对被试的学习产生影响的;而exemplar模型则认为刺激呈现的频率也会对被试的分类产生影响且高频条件下的表现要好于低频条件下。如果两个模型系统相互独立,那么按照理论外推的例外刺激的分类将不会受到样例频率的影响
文章通过两个实验(人类被试和模型拟合)来研究基于rules和exemplar模型的3个问题——规则的必要性/exemplar记忆的必要性/两基础模型的交互作用。
人类被试实验
实验材料为内部含有线段的矩形,刺激的变化维度是矩形的高度和线段的水平位置,高度和水平位置的变化范围是0-9之间。刺激一共有四类,分别有不同的图形表示。首先,根据长方形高度大于4.5的是类A(图形为方块),长方形高度小于4.5的是类B(图形为圆形);其次,空心方块和空心圆是类中的例外刺激;空白格子和TE,TR是用来测试的没有学习过的新刺激空白格与ab类相同,而TE,TR是例外的新刺激。
实验对于类别的结构有要求,即一些刺激是可以通过给定规则进行分类的,但还有一些规则外的刺激必须进行记忆才能分类。
实验1分为学习阶段和迁移阶段。
学习阶段内,被试会通过规则进行训练使得能够将大部分刺激进行分类,在之后会随机给与被试2个呈现符合之前学习规则的样例和2个规则外的刺激,被试进行归类判断之后再给被试进行反馈;而在之后的迁移阶段会出现新的刺激(新刺激分为2类,在学习阶段的训练范围内的为内推法刺激,而规则外的叫外推法刺激),实验会向被试逐一呈现4个外推法才能够正确判断的类别刺激,并且不对被试的正确与否进行反馈,以此来考察类别特征的形成。
程序:29个模块,每个模块14个试次,其中实心图案播放一次,例外刺激播放两次。要求被试将图例分到四个类型中(有四个不同的按键),并且反馈对错和正确答案
*内推法/外推法:
学习的类别结构。例如函数区间,50-59范围内的刺激为A类,60-69的为B类,70-79的为A类(间隔)。在学习阶段从某个范围区间内(比如50-89)中选择刺激让被试进行判断与学习。那么在迁移阶段,如果从50-89之间挑选的新刺激(学习阶段内没有出现的)来让被试进行判断即为内推法;如果从50-89之外选择新的刺激来让被试进行分类判断即为外推法。
训练阶段示意图。 图左显示,正确规则下被试分类的正确率在上升,对特例附近的刺激相应下降;图右表示对正确的特例分类正确率在上升,但是会有over-generalization,被试会出现对一些非特例的刺激错误分类。
迁移阶段示意图。示意图说明被试对TE和TR的分类没有明显区别,即被试更多的是采用rules模式。但是某一些部分还是体现了exemplar模式——新刺激与例外刺激相似性越低,分类到该类的概率降低。
*实验一中还发现了维度注意现象(Dimensional attention),即被试更多地注意到维度1(高度,即训练时的规则)的变化。被试对在维度1上与例外刺激相似的刺激会更多地分类到特例一类。
如果exemplar模式仅仅只对例外刺激分类,那么更多的注意应该分配到特例的两个维度上。但是实验表明注意在维度1更多,说明exemplar模式同时处理例外刺激和rule-based分类的刺激。
实验2
实验2通过控制样例呈现的频率,进一步探讨刺激呈现的频率对于分类学习的影响。
与实验1相同,刺激还是实心方块,实心圆,空心方块(只有一个),空心圆(只有一个)。数字代表出现的比率。
程序:一个16个模块,每个模块28个试次。每个模块训练结束,都有14试次的迁移实验,要求被试给新刺激贴标签。
训练阶段示意图。与实验1大致相似,正确规则下的分类正确率更高,而对例外刺激的分类正确率更加低。同样,over-generalization现象也更加严重。另外,被试对频率更高的示例学习得更快(规则刺激及例外刺激)。
迁移训练刺激示意图。该图表示对实验2阴影部分的迁移数据统计,实点心代表rule,横线代表exemplar。
高频的例外刺激附近的刺激会更多地被分类到特例一类,高频的规则刺激附近的刺激也会更多地被分到规则刺激一类,即exemplar模型也适用于不同频率rule-based的刺激——实验2也能说明exemplar模型能够同时处理例外和rule-based的刺激。
实验12说明了单独的模型(rule与exemplar)都不能够完全地探明分类学习过程,所以将两者结合是有必要的。进一步地,作者提出了将二者结合的链接模型ATRUIM,
ATRUIM模型示意图,是一个rules和一个exemplars的双重模型,虚线为学习到的权重。
该模型认为在分类学习中rules系统和exemplars系统共同存在,而分类学习的具体条件会决定二者的地位权重。如果类别样例可以根据某个特征进行分类判断,那么ATRUIM中的rules模型比重就会较高;而如果刺激的正确分类是通过整合样例信息的,那么exemplar模型的比重就会较高。文章通过机器拟合来单独评估模型中exemplar的部分的性能,然后进一步评估整个模型。
ATRUIM中的rule模型规则模块包含两种类型的节点:规则节点和类别节点。规则节点实现了一个线性sigmoid;响应最佳的类别节点来探索包含规则模块的门控混合系统在任务中的工作情况。而ATRUIM中的exemplar模型建立涉及对ALCOVE的实现。
*ALCOVE是基于样例表征和错误驱动学习的类别模型,对于每一个节点的输入都会由门控的注意值来决定。在训练开始时,给与刺激所有维度同等的注意,但随着学习过程,更多的注意会被分配到表征相关的维度上。总的来说,ALCOVE可以选择性地分配注意(在一定程度上忽略无关维度空间)来解决分类问题。
ATRUIM将样例以心理空间(例如三维坐标系)中的点方式存在。刺激会抽象成空间中的一个点,而根据这些点的分布情况分类,划分类别的线即为规则“rule”。当一个空间内不存在划分的线时,根据模型储存的空间将新刺激进行相似性对比后进行分类。
ATRUIM模型的学习是基于梯度下降(gradient descent on error)来实现的(寻找梯度函数,求偏导,使其快速收敛至极值点)。ATRUIM通过上图的参数进行拟合。
*2个β参数由刺激所决定,其余参数是随机的。
机器拟合实验
拟合实验采用和人类被试实验中相同的各项刺激,模型同样将会拟合训练阶段和迁移阶段。由于exemplar是ALCOVE的实现,可以推测ATRUIM是ALCOVE的拓展(即ALCOVE是ATRUIM自由度较低的子集)。实验会同时用ALCOVE和ATRUIM对结果进行预测。
实验1:训练示例外的外推拟合。
实验1采用和人类被试实验相同的刺激,将实验1的训练数据交叉生成一个三向表。
ALCOVE训练阶段拟合示意图,实线表示被试实际结果,虚线表示拟合结果。图表明ALCOVE学习速度和人类被试学习速度大致相同,但前10个block左右ALCOVE拟合正确率较实际高而后10个block则较低(这种不匹配可以用例外刺激周围的低特异性刺激解释)。
ALCOVE迁移阶段拟合示意图。图显示了对刺激的预测比例,和人类被试相比,尽管有很多一般相符合,但例外刺激附近的刺激分类仍然有较大差异。另一方面,ALCOVE对例外刺激的拟合说明了该模型将更多的注意力放到了主要维度(规则)上。
ATRUIM训练阶段拟合示意图。可以看出,ATRUIM的学习速度同样接近人类被试,并且相符程度更高(over-generalization现象的block也与被试一致)。
ATRUIM迁移阶段拟合示意图。ATURIM对于例外刺激的预测率较ALCOVE有着很大的进步。 当然,就像ALCOVE一样,ATRIUM对与两个维度上的例外刺激的预测模式表明,更多的注意力被分配到了主要维度。
拟合实验2:训练示例频率的影响
与拟合实验1相同,拟合实验2也采用了和被试实验2一样的实验数据,但只对训练阶段进行拟合(因为迁移阶段只是对刺激数量的改变)。
ALCOVE拟合示意图。与实验1不同,实验2的拟合不再能够对数据进行定性预测(尤其是例外刺激),并且右图中ALCOVE预测将不会产生over-generalization现象。*作者认为在实验2中例外刺激周围刺激的泛化梯度极高,而为了显示泛化梯度特异性参数必须尽可能低,这种模型无法兼容的矛盾导致一些类似于例外刺激的刺激都未被归类。
ATRUIM拟合示意图。与ALCOVE不同,ATRUIM的拟合仍能很好地和实际相适应。在梯度渐进线的例外刺激正确率也高于被试数据,例外刺激出现时ATRUIM也能很好预测出over-generalization现象。但是,预测的trial数量与实际存在差异——预测over-generalization的出现和减少的速度都比被试数据慢。
综上,实验1能够在某些程度上说明ALCOVE的预测确实和实验数据相一致——首先,与次要刺激匹配的刺激相对于与主要维度匹配的刺激,例外泛化率较低;其次,ALCOVE中的注意力权重表明,主要维度的差异被加权比次要差异更大。但由于ATRIUM的exemplar模块不需要学习表示规则的所有实例,因此它能够显示改变规则训练实例频率的效果。在实验过程中,样本模块的最终输出与规则模块的输出混合在一起,ATRIUM预测的规则响应在异常训练实例附近的比例比ALCOVE的预测更符合经验数据。可以看到,ATRUIM在保留正确预测的同时优化了错误预测。
讨论
尽管ATRUIM模型并非是唯一可以解释并且契合实验数据的模型,但作者对该模型的性能高度的认可。根据该模型,人们在进行较为简单的分类任务时,倾向于根据exemplar机制进行分类,而在复杂任务中人们更加倾向于根据rule模型,运用抽象的规则进行分类。在讨论中作者也说明了,由于被试数量已经训练样例数目较少,结论不能很好地推广。
另外在讨论中,作者还简单地阐述了其余的分类学习模型,例如RULEX模型、COVIS模型等。总之,通过规则和示例性结合的模块化模型可以很好地描述人类的分类行为。分类学习任务中的规则和例外刺激对于两种系统的分析有着很重要的作用,而成功建模的关键因素则是通过注意力分配来表示两个系统间的交互。
*RULEX模型,类似的rule和exemplar结合模型,该模型是将所有刺激共同学习,从中找出能够最大部分分类的规则,而将剩余的样例作为例外样例记忆。
*COVIS模型,基于神经机制的理论模型,该模型任务分类学习是由意识控制的言语规则的加工系统和内隐的基于信息整合的加工系统独立形成的。