规范参考测试

最近更新时间:

Norm-referenced是指的标准化考试目的是比较和排名考生之间的关系。标准参照测试报告考生的成绩是否优于假设的普通学生,而普通学生的成绩是通过与统计选定的一组考试考生的成绩进行比较来确定的,这些考生通常具有相同的年龄或年级水平,但已经参加了考试。

计算规范参考分数称为“规范过程”,并且比较组称为“规范组”。拉平基通常只包含以前的考生,并非所有或大多数先前的考生的一小部分。测试开发人员使用各种统计方法来选择规范组,解释RAW分数并确定性能水平。

标准参照分数通常以百分比或百分位排名来报告。例如,得分在第70百分位的学生表现得和其他70%相同年龄或年级的考生一样好或更好,而30%的学生表现更好(由标准化组的分数决定)。

标准参照测试通常采用多项选择的形式,不过有些也包括开放式的简答题。他们通常是基于某种形式的国家标准,而不是当地确定的标准或课程。IQ测试是最着名的常规参考测试之一,是发育筛查测试,用于识别幼儿中的学习障碍或确定特殊教育服务的资格。一些主要的常规标准测试包括加州成就测试,爱荷华州的基本技能测试,斯坦福成就试验和Terranova。

以下是一些有代表性的例子,说明如何使用标准参照测验和分数:

  • 确定幼儿对学龄前或幼儿园的准备情况。这些测试可能旨在测量口语能力,视觉运动技能和认知和社会发展。
  • 评估基本阅读,写作和数学技能。测试结果可用于各种目的,例如测量学术进步,制定课程作业,确定等级促销的准备,或确定需要额外的学术支持。
  • 确定特定的学习障碍,如自闭症,阅读障碍或非语言学习残疾,或确定特殊教育服务的资格。
  • 为了做出项目资格或大学录取决定(在这些情况下,标准参照分数通常与学生的其他信息一起评估)。SAT或ACT考试的成绩就是一个常见的例子。

标准引用与标准引用的测试

标准参照测试是专门设计来根据“钟形曲线”给测试者排名的,钟形曲线是一种类似钟形轮廓的分数分布。在美国,一小部分学生表现良好,大多数表现一般,还有一小部分表现不佳。为了每次都形成一个钟形曲线,考试问题都经过精心设计,以突出不同考生的表现差异,而不是确定学生是否达到了特定的水平学习标准,学习了一定的材料,或获得了特定的技能和知识。根据一组固定的标准或标准衡量性能的测试被称为标准参考测试

标准引用的测试结果通常基于学生提供的正确答案的数量,并且分数可能表示为可以正确答案的总数的百分比。然而,在常规参考考试中,分数将反映多少更多的更少的与其他学生相比,正确的答案假设,如果所有参加标准参照测试的学生表现都很差,那么最低差的结果将把学生排在最高的百分位上。同样,如果所有学生都表现得非常好,表现最差的学生将排在最低的百分位。

需要指出的是,规范参照测验不能衡量整个学生群体的学习成就或进步,而只能衡量群体内个人的相对表现。因此,标准参照测试被用来衡量整个团队的表现。

改革

标准参照测试历来被用来区分学生,通常是出于课程安排、项目资格或学校录取的目的。然而,因为标准参照测试的设计是为了给学生的表现在一个相对的尺度上——即。与其他学生的表现相比,许多学校和州已经放弃了以标准为参照的测试,而倾向于以标准为参照的测试,这种测试根据一套共同的固定标准或标准来衡量学生的表现。

应该指出的是,标准参照测试通常是这种形式的标准化考试被广泛用于遵守州或联邦政策,如《不让一个孩子掉队法案》,旨在衡量学校的表现,关闭"的差距,或者要求学校对提高学生学习成绩负责。在大多数情况下,使用标准参照测试来实现这些目的,因为其目标是确定学校是否成功地教授了学生期望学习的内容。

类似地,评估正在开发以衡量学生的成就共同核心国家标准也是标准参考考试。然而,一些测试开发人员促进了他们的规范参考考试 - 例如,Terranova常见的核心 - 作为教师“基准”学习进步的一种方式,并确定学生是否正在跟踪,以符合普通核心的评估。

辩论

虽然规范引用的测试不是正在进行的国家辩论的重点“高风险测试尽管如此,他们仍然是很多争论的对象。一些人认为标准参照测试是客观、有效和公平的学生表现衡量标准,而另一些人则认为依赖相对表现结果是不准确的、没有帮助的和不公平的,尤其是在为学生做重要的教育决定时。虽然部分的争论主要集中在是否这在伦理上是合适的,甚至教育有用,来评估个体学生的学习与其他学生(而不是评估个人表现与固定和已知的标准),争论的焦点也集中在是否有一种普遍的过度依赖标准化测试分数在美国,一个单一的测试,无论它的设计是什么,是否应该被排除其他衡量标准,用来评估学校或学生的表现。

应该注意的是,无论测试是否是标准参考或标准参考如何,都可以操纵标准化测试的感知性能。F或example, if a large number of students are performing poorly on a test, the performance criteria—i.e., the bar for what is considered “passing” or “proficient”—could be lowered to “improve” perceived performance, even if students are not learning more or performing better than past test takers. For example, if a standardized test administered in eleventh grade uses proficiency standards that are considered to be equivalent to eighth-grade learning expectations, it will appear that students are performing well, when in fact the test has not measured learning achievement at a level appropriate to their age or grade. For this reason, it is important to investigate the criteria used to determine “proficiency” on any given test—and particularly when a test is considered “high stakes,” since there is greater motivation to manipulate perceived test performance when results are tied to sanctions, funding reductions, public embarrassment, or other negative consequences.

以下是标准参照测试的支持者提出的典型论点:

  • 标准参照测试的开发成本相对较低,管理简单,易于评分。只要这些结果与其他成绩衡量标准一起使用,它们就能提供有关学生学习的有价值的信息。
  • 标准参照测试的质量通常很高,因为它们是由测试专家开发、试点和修改后的,然后才用于学生,它们是可靠的和稳定的,它们的设计测量。
  • 标准参照测试可以帮助区分学生,并确定哪些学生可能有特定的教育需求或缺陷,需要专门的帮助或学习环境。
  • 考试是一种客观的评估方法,可以减少偏见或偏袒的教育决策。例如,如果一个天才项目的名额有限,一种透明的决定方式是给每个学生同样的考试,让得分最高的学生进入。

以下是规范参照测试的批评者提出的典型论点:

  • 尽管测试专家和测试开发人员警告说,重大的教育决策不应该基于单一的测试分数,但在学校做出重要的教育决策时,比如分数的提升或保留,标准参照分数经常被滥用,这可能会对一些学生和学生群体产生潜在的有害后果。
  • 规范参考测试鼓励教师在钟曲线方面查看学生,这可以导致他们降低某些学生群体的学术期望,特别是特殊需要的学生,英语学习者,或少数群体。而当学业预期年复一年地持续下降时,这些群体中的学生可能永远也无法赶上他们的同龄人,从而产生了一种自我实现的预言。相关讨论请参见很高的期望
  • 多项选择题测试中,占主导地位的常模参照格式更适合于测量记住事实比思考更复杂的形式。因此,规范参考测试在更复杂的认知技能中促进学校的死记硬背学习和记忆,例如写作,批判性阅读,分析思想,解决问题或创造力。
  • 对规范参照测试结果的过度依赖可能会导致对少数族裔和低收入学生群体的无意歧视,这两个群体往往面临更多来自高收入家庭的非少数族裔学生的教育障碍。例如,许多教育工作者认为,过度使用标准参照测试导致了少数族裔学生在特殊教育项目中的显著比例过高。另一方面,使用标准参照分数来决定天才项目或其他“丰富的”学习机会,导致少数民族和低收入学生在这些项目中的代表性不足。同样,来自高收入家庭的学生可能在大学录取过程中有不公平的优势,因为他们可以负担昂贵的备考服务。
  • 对规范参考的测试分数的超值高估了重要的成就,技能和能力,支持通过测试衡量的更狭窄的技能。