课堂评估有许多不同的形式---单元测验、小论文、档案袋、完成项目、动手操作、口头报告等。由于教学过程中需要做出各种决策,因此,评估是很重要的。
测量,是量化的---用数字对一个事件或特征进行描述。目前,测量专家更多地使用评估这一术语来描述收集学生学习信息的过程。评估的概念要比测量或测验广泛的多。因为,评估包含了取样和观察学生知识、技能和能力的所有方法。今天,评估超越了传统的纸笔测试,主要基于学生的行为表现、档案袋、项目成果或手工作品对学生进行评价。按照功能和用途,评估分为形成性评估和终结性评估。形成性评估发生在教学前或教学过程中,形成性评估的目的是指导教师计划和改善教学,同时也帮助学生改善学习。形成性评估帮助形成“教学”,并提供“非评判的、支持的、及时的和具体的”反馈。通常,教师在教学前会给学生进行形成性测验,这种前侧能够帮助教师了解学生已经知道了什么。终结性评估发生在教学之后,目的是让教师和学生知道任务达成的水平。任何测验本身是没有意义的,为了解释测验结果,我们需要进行一些比较。有两种基本的比较类型:第一种是对参加了同样测验的人的分数进行比较,被称作常模参照比较。第二种类型就是标准参照,比较是基于一个固定的标准或最低的通过分数。在常模参照测验中,所有参加过该测验的人的成绩构成了常模,并以此来确定某一个题分数的含义。教育领域至少有三个不同类型的常模团体,或称比较团体---班级或学校内部、学区、全国样本。常模参照测验的分数,应用非常广泛,特别对于只有少数顶尖选手才能进入的项目,采用常模参照测验很合适。然而,常模参照测验也有一些局限性,常模参照测验的结果并没有提供学生是否可以学习更高级内容的信息;也不太适合测量情感目标或动作技能目标;常模参照测验是对竞争和分数的鼓励。标准参照测验测量的是对某些特定目标的掌握程度。其结果应该精确的告诉教师学生能够做什么,不能够做什么。在教授基本技巧的时候,很多例子表明,把个人成绩与事前确立的某项标准进行比较比与他人比较更为重要。标准参照测验也并非对所有情境都适用,许多学科内容无法被分解成一系列具体的目标。
在形成测验和解释结果时,信度、效度、无偏性是必须考虑的三个重要因素。
信度,假设一个人的能力是保持不变的,如果一个测验在两种情境下对个人能力的解读具有一致性和稳定性,就说明测验分数是可信的。所有的信度值都在0.0---1.0之间,超过0.9就认为是非常可信的,0.8---0.9之间是良好。
分数误差,所有的测验对于他们希望测量的品质或技能而言,都不可能做到完美的估计。在每一个测量情境中都存在误差,这些误差的产生与学生的情绪、动机、考试技巧甚至考试作弊都有关系。测验分数越可信,分数中所包含的误差就越小。不要基于学生获得的某个确切的分数来估计学生的能力或成就。对于标准化测验,一般用置信区间或标准误带来报告分数,这个区间包含了学生的实际得分。
如果测验分数是可信的,这些分数是否有效?基于这些分数得出的判断或决策是不是有效的?为了实现有效性,基于测验进行的决策和推论应该有证据支持,这就意味着效度与某个特殊的用途或目的相关。一个特定的测验对于某个目的可能是有效的,而对于另外一个目的可能就无效。我们有不同的证据来检验一下具体的判断。如果测验目的是为了测量一门课程或一个单元的技能,我们希望看到的试卷覆盖了这些章节的重要主题,这样,我们就有了内容效度的证据。有些测验是为了预测结果,比如SAT就是预测学生在大学的表现。
评估一个测验好坏的第三个标准就是无偏性,评估偏见是指:评估工具因学生的性别、种族、社会经济地位、宗教和一些其他的群体特征而造成冒犯学生或不公平对待学生的性质。偏见是指测验的某些方面可能扭曲了群体的反应---无论是好还是坏。评估偏见包含两种形式---不公平性、冒犯性。包含大量体育内容的阅读评估就是不公平性的例子。一个特殊的群体如果因为评估内容而感到被侮辱,就表现为冒犯性。
真实性评估:考察学生在真实情景中的技能和能力的评估方法。不是要求学生去寻找那些假设情境中“真实性”问题的答案,而是去解决真实世界的问题。在真实的应用过程中,事实是属于情境中的。比如,买玩具要花60美分,给营业员1美元,会找回零钱多少?直接用真实的钱来成对进行角色扮演,互相购买;或者设立一个模拟商店,由学生来购买找零等。
表现性评估:为了展现学习效果,要求学生开展一项活动或制作一个物品的评估方式。档案袋和成果展示是两种需要学生在一定情境中进行表现的评估方式。档案袋就是一个收集作品的系统,常常包含表现工作进步、修改的作品、也包含学生的自我分析以及对所学知识的反思。