标准参照考试

最近更新时间:

标准参照测试和评估是用一套固定的预先确定的标准来衡量学生的表现还是学习标准即:,以简明的书面形式描述学生在其教育的特定阶段应该知道和能够做什么。在初等和中等教育中,使用标准参照测试来评估学生是否学习了特定的知识体系或获得了特定的技能。例如,课程在课程,学术项目,或内容区域

如果学生在既定期望或高于既定期望 - 例如,通过正确回答一定比例的问题 - 他们将通过测试,符合预期标准,或被视为“精通“在标准参照测试中,如果没有达到预期的标准,每个参加考试的学生理论上都可能不及格;或者,每个学生都可以获得尽可能高的分数。在标准参照测试中,每个学生通过测试或获得满分不仅是可能的,而且是可取的。人们将标准参照考试与驾照考试进行了比较,后者要求申请者必须达到最低分数才能获得驾照。

标准引用与常规参考测试
规范参考测试are designed to rank test takers on a “bell curve,” or a distribution of scores that resembles, when graphed, the outline of a bell—i.e., a small percentage of students performing poorly, most performing average, and a small percentage performing well. To produce a bell curve each time, test questions are carefully designed to accentuate performance differences among test takers—not to determine if students have achieved specified learning standards, learned required material, or acquired specific skills. Unlike norm-referenced tests, criterion-referenced tests measure performance against a fixed set of criteria.

标准参照测试可能包括多项选择题、是非题、“开放式”问题(例如,要求学生写一篇短文或一篇文章的问题),或问题类型的组合。个别教师可以为特定课程设计考试,也可以由专家团队为与州教育部门有合同的大公司设计考试。标准参照测试可能是高赌注测试-i.e.,用于对学生,教育工作者,学校或地区做出重要决定的测试 - 或者他们可能是用于衡量个别学生的学术成就的“低赌注测试”,确定学习问题,或者提供教学调整。

标准参照测试的著名例子包括跳级考试国家教育进展评估,这都是标准化考试提供给全美各地的学生。当测试公司开发大规模使用的标准参考标准化测试时,他们通常有专家委员会来确定测试标准和通过分数,或学生需要正确回答的问题的数量以通过测试。这些测试的分数通常用百分数表示。

应该注意的是,通过分数-或截止分数“on标准引用的测试是由个人或组进行的判断呼叫。例如,它在理论上是一个特定的测试开发委员会,如果它由不同的背景和观点组成的不同个人,则会确定某种测试的不同程度。例如,一个组可能会确定最小的通过得分是70%的正确答案,而另一个组可能将截止分数以75%正确建立。相关讨论请参见熟练程度

由个别教师制定的标准参照测试在美国公立学校也很普遍。例如,历史老师可能会设计一个测试来评估对第二次世界大战单元的理解和记忆。在这种情况下,标准可能包括战争的起因和时间线,涉及的国家,主要战役的日期和情况,以及某些领导人的姓名和角色。教师可以设计一个测试来评估学生对标准的理解,并确定一个最低及格分数。

虽然标准引用的测试分数通常表示为百分比,但许多有最小的通过得分,但也可以以替代方式评分或报告测试结果。例如,结果可以分为广泛的成就类别 - 例如“低于基本”,“基本”,“熟练”和“高级” - 或者在1-5个数值规模上报告,其中数字代表不同级别的成就。与最小的经过分数一样,熟练程度是由个人或团体制定的审判呼吁,这些人可能会选择通过筹集或降低它们来修改熟练程度。

以下是一些有代表性的例子,说明如何使用参照标准的测试和分数:

  • 确定学生是否学会了预期的知识和技能。如果标准参考测试用于决定等级促销或文凭资格,他们将被视为“高赌注测试”。
  • 确定学生是否有学习空白或是需要解决的学术缺陷。相关讨论请参见形成性评价
  • 评估一门课程、学术计划或学习经验通过使用“前测试”和“后测试”来衡量教学期间的学习进度。
  • 将测验结果纳入教师的工作绩效评估中,以评估教师的工作效能。相关讨论请参见增值措施
  • 衡量残疾学生“个体化教育计划”中所描述的目标和目标的进展。
  • 确定学生或教师是否有资格获得执照或证书。
  • 衡量某一特定州学生的学业成绩,通常是为了比较不同学校和地区的学业成绩。
  • 衡量一个国家学生的学术成就,通常是为了比较不同国家的学术表现。一些广泛使用的国际比较测试的例子包括国际学生评估计划(比萨),国际阅读素养研究进展(皮肤),和国际数学与科学研究趋势(TIMSS)。

改革

标准引用的测试是美国公共教育中最广泛使用的测试类型。所有用于衡量公立学校绩效的大规模标准化测试,持有学校责任改善学生学习结果,遵守国家或联邦政策 - 例如留下法案的不留下的儿童 - 是标准引用的测试,包括评估正在开发以衡量学生的成就常见的核心国家标准。使用标准参照测试的目的是为了确定教育工作者和学校是否成功地教授学生他们应该学的东西。

教育工作者和学校执业人员也使用标准参照测试proficiency-based学习是指基于学生的教学,评估,评分和学术报告系统的术语,这些报告证明他们预计在进入下一课之前学习的知识和技能的掌握,促进了下一年级,或接受文凭。在大多数情况下,基于水平的系统使用国家学习标准来确定学术期望,并在给定课程,内容区域或年级级别定义“熟练程度”。标准引用的测试是一种方法,用于衡量与标准相关的学术进步和成就。

根据各州和联邦旨在改善学校和教师表现的各种政策,标准参照标准化考试已成为美国公立学校越来越重要的一部分。当着眼于改革学校和提高学生成绩时,这些测试主要用于以下几个方面:

  • 让学校和教育工作者对教育结果和学生表现负责。在这种情况下,测试分数被用作有效性的衡量标准,并且低分分数可能会引发对学校和教师的各种后果。
  • 评估学生是否了解他们预期的学习。在这种情况下,测试分数被视为学生成就的代表指标。
  • 找出学生学习和学术进步的差距。考试成绩和其他有关学生的信息可以用来诊断学习需求,这样教育工作者就可以提供适当的服务、指导或其他学术支持
  • 找出不同学生群体之间的成绩差距。有色人种学生、英语不熟练的学生、来自低收入家庭的学生、以及有身体或学习障碍的学生在标准化测试中的平均得分往往远低于来自受教育程度更高、收入更高家庭的白人学生。在这种情况下,暴露和突出成绩差距可能被视为努力教育所有学生的重要第一步,这可以导致更大的公众意识,并导致教育政策和项目的变化。
  • 确定教育政策是否按预期工作。Elected officials and education policy makers may rely on standardized-test results to determine whether their laws and policies are working as intended, or to compare educational performance from school to school or state to state.They may also use the results to persuade the public and other elected officials that their policies are in the best interest of children and society.

辩论

在美国,高风险标准化考试的广泛使用使得标准参照考试成为批评和辩论的对象。虽然许多教育工作者认为标准参考测试是评价学生、教师和学校表现的公平和有用的方法,但其他人认为,过度使用和潜在的滥用测试可能产生的负面后果超过了它们的好处。

以下是通常由标准参考测试的支持者制作的一些代表性论据:

  • 与标准参照考试相比,这种考试更适合于衡量学习进度,它为教育工作者提供了可以用来改善教学和学校表现的信息。
  • 学生的测试比规范引用的测试更公平,因为他们没有比较学生的相对表现;他们评估对常见且持续应用的标准集的成就。
  • 该测试对所有学生施加相同的学习标准,这可以将弱势或弱势学生持有同一学生很高的期望作为其他学生。从历史上看,颜色的学生,不熟练英语的学生,来自低收入家庭的学生以及具有身体或学习残疾的学生遭受了较低的学业成就,许多教育工作者至少争辩到表现不佳的模式,至少部分地是,从较低的学术期望中。向这些学生团体提高学术期望,并确保他们达到这些预期,据信促进更大公平在教育领域。
  • 测试可以由开放性的问题和任务构成,要求学生使用更高水平的认知技能,如批判性思维、解决问题、推理、分析或解释。例如,选择题和是非题可以促进记忆和事实记忆,但它们并不要求学生运用所学知识来解决一个具有挑战性的问题,或深刻地描述一个复杂的问题。相关讨论请参见21世纪的技能绽放的分类法

以下是标准参照测试的批评者提出的典型的代表性论点:

  • 考试的准确性和公平性取决于其所依据的学习标准。如果标准措辞含糊,或者对被评估的学生来说太难或太容易,相关的测试结果就会反映出标准的缺陷。一个一般的例子是,在11年级进行的反映学生应该在8年级获得的知识和技能水平的测试。或者,测试可能不合适"对齐这样,即使标准写得很清楚,适合年龄,集中在正确的知识和技能上,考试的设计也可能不足以达到标准。
  • 确定熟练程度和转向标准的测试的分数的过程可能是非常主观的或误导性 - 潜在的后果可能是显着的,特别是如果测试用于对学生,教师和学校做出高赌注决策。由于报告的“熟练程度”升起并与用于熟练统治的标准或截止分数直接关系,因此可以通过提升或降低标准和通过得分来操纵对测试结果的感知和解释。当教育者根据考试成绩评估时,他们的工作保障可能会依赖于潜在的误导或缺陷的结果。即使是国家教育系统的声誉,当大量的学生未能实现国际评估的“熟练程度”时,也可以受到负面影响。
  • 熟练程度的主观性使得考试被用于政治目的,使学校表现得比实际情况更好或更差。例如,一些州被指责降低标准化考试的水平标准,以增加达到“水平”的学生人数,从而避免负面的媒体、公众批评、大量学生无法获得文凭(在以考试成绩为毕业标准的州),这可能是由于大量学生未能达到预期或要求的熟练水平。
  • 如果测试主要使用多项选择问题,在标准化考试的情况下,使得分更快和更便宜的,因为它可以通过电脑而不是人类scorers-they将促进死记硬背和事实的回忆在学校,而不是高阶思维能力的学生需要在大学,事业和成年生活。例如,标准化考试的过度使用或误用可能会鼓励一种被称为“应试教学”的现象,这意味着教师过多地关注考试准备和标准化考试评估的学术内容,通常以牺牲其他重要的主题和技能为代价。