评估

最近更新时间:

在教育中,这个术语评估是指教育工作者使用的各种方法或工具,用于评估,衡量和记录学生的学习,学习进度,技能获取或教育需求。

虽然评估通常等同于传统测试 - 尤其是标准化考试由测试公司开发,面向大量学生的教育工作者使用各种各样的评估工具和方法来衡量从4岁孩子上幼儿园的准备情况到12年级学生对高等物理的理解情况。就像学术课程有不同的功能一样,评估通常是为了衡量学习的特定元素而设计的。那the level of knowledge a student already has about the concept or skill the teacher is planning to teach or the ability to comprehend and analyze different types of texts and readings. Assessments also are used to identify individual student weaknesses and strengths so that educators can provide specialized学术支持,教育规划或社会服务。此外,评估是由各种团体和个人制定的,包括教师,区管理员,大学,私营公司,国家教育部门以及包括这些个人和机构的组合的群体。

虽然评估可以采取各种各样的教育形式,但以下描述提供了一些主要形式教育评估的代表性概述。

评估用于学校和各种各样的目的教育系统

  • 高赌注评估是用于问责目的的典型标准化测试——即。那any attempt by federal, state, or local government agencies to ensure that students are enrolled in effective schools and being taught by effective teachers. In general, “high stakes” means that important decisions about students, teachers, schools, or districts are based on the scores students achieve on a high-stakes test, and either punishments (sanctions, penalties, reduced funding, negative publicity, not being promoted to the next grade, not being allowed to graduate) or accolades (awards, public celebration, positive publicity, bonuses, grade promotion, diplomas) result from those scores. For a more detailed discussion, see高风险测试
  • 预评估在学生开始课程,单位,课程或学术计划之前进行管理。学生不一定希望通过预评估评估的材料最多,或甚至任何,它们通常用于(1)建立一个基线,教育者在计划期间,课程或教学期间衡量学习进度期间,或(2)确定学生可以转移的课程,计划,年级或新学术计划的一般学术准备情况。
  • 形成评估是对学生学习的过程评估,这些评估通常在单位,课程或学术计划期间多次管理。形成性评估的一般目的是向教育工作者提供关于学生正在学习或不学习的内容,以便可以相应地修改教学方法,教学材料和学术支持。形成性评估通常没有得分或分级,他们可能会采取各种形式,从更正式的测验和分配到非正式的质疑技术和与学生的课堂讨论。
  • 总结评估用于评估特定教学期间的学生学习 - 通常在单位,课程,学期,计划或学年结束时。总结评估通常被评估和分级测试,作业或项目,用于确定学生是否学会了在定义的教学期间学习的预期。

    普遍认为形成性评估是为了学习是因为教育工作者在教学期间使用结果来修改和改进教学技巧,而总结性评估被称为学习是因为他们在一个教学阶段结束时评估学术成就。或者正如评估专家保罗·布莱克(Paul Black)所说,“当厨师品尝汤的时候,那就是形成性评估。”当顾客品尝汤的时候,这就是总结性的评价。”

  • 临时评估用于评估学生在学习进度的地方,并确定它们是否正在追踪,以便在未来的评估中表现良好,例如标准化测试,课程终止考试和其他形式的“总结”评估。临时评估通常在课程或学年期间(例如,每六个或八周)定期管理,并与指导学生的过程分开(即,与形成进入教学过程中的形成性评估不同)。
  • 安置评估是用来“安排”学生到一个课程,课程水平,或学术计划。例如,评估可用于确定学生是否准备好了代数I或更高水平的代数课程,如荣誉水平课程。出于这个原因,在课程或项目开始前就会进行placement assessment,其基本目的是为学生匹配合适的学习经验,满足他们不同的学习需求。
  • 筛选评估用于确定学生是否可能需要专门的援助或服务,或者是否准备好开始课程,年级等级或学术计划。筛选评估可能采用各种形式的教育环境,它们可能是发展,身体,认知或学术。例如,可以使用学前筛选测试来确定幼儿是否在物理上,情感,社会和智力准备开始学费,而其他筛选测试可用于评估健康,潜在的学习障碍和其他学生属性。

评估还以各种方式设计:

  • 标准化评估以标准或一致的方式设计、管理和评分。他们经常使用多项选择的形式,尽管有些包括开放式的,简短回答的问题。从历史上看,标准化考试的特点是学生们用二号铅笔填写成排的椭圆形,但越来越多的考试是基于计算机的。标准化测试可以在一个州、地区或国家对相同年龄或年级的大量学生进行管理,结果可以在不同的个人和学生群体之间进行比较。有关更详细的讨论,请参见标准化测试
  • Standards-referenced或基于标准的评估旨在衡量学生掌握当地,州或国家中描述的具体知识和技能学习标准。标准化考试和高风险考试可能基于也可能不基于特定的学习标准,个别学校和教师可能制定自己的参照标准或基于标准的评估。有关更详细的讨论,请参见proficiency-based学习
  • 常见的评估用于学校或地区,以确保所有教师都以更一致,可靠和有效的方式评估学生表现。常见评估用于鼓励负责教授相同内容的教师的教学和评估方面的更大一致性,例如,在年级,部门或内容区域。他们允许教育者在多个教室,课程,学校和/或学习经验中比较绩效结果(当教育工作者教导不同的材料并单独发展自己的独特评估时,这是不可能的。常见评估份额相同,并以一致的方式管理 - 例如,教师为学生提供相同的指示和相同的时间来完成评估,或者他们使用相同的评分指南来解释结果。常见评估可能是“形成性”或“总结。”有关更详细的讨论,请参阅连贯的课程标题
  • 绩效评估通常要求学生完成复杂的任务,例如写作分配,科学实验,语音,演讲,演示,性能或长期项目。教育工作者通常会使用协作开发的共同评估,评分指导,抄写和其他方法,以评估学生的工作是否表明他们已经了解他们的预期学习。绩效评估也可能被称为“真实的评估”,因为一些教育工作者被认为是比传统测试更准确和有意义的学习成就的准确和有意义的评估。有关更详细的讨论,请参阅真正的学习展示学习, 和展览
  • 投资组合为基础评估是学术工作的集合 - 例如,分配,实验室结果,写作样本,演讲,学生创作的电影或艺术项目 - 由学生编制,并以一致方式评估教师。基于投资组合的评估通常用于评估“知识机构”-i.e。在一段时间内收购不同的知识和技能。组合材料可以以物理或数字格式收集,并且通常会评估它们以确定学生是否满足要求学习标准。有关更详细的讨论,请参见文件夹

评估的目的通常会驱动它的设计方式,而且评估可以以多种方式使用。例如,标准化的评估可能是高风险的评估,但非标准化测试的其他形式的评估也可能是高风险的。学生的作品集可以作为“形成性”和“总结性”的评估形式。教师创建的评估,也可以由教师团队创建,通常用于学校的单一课程或年级水平,这些评估几乎从来都不是“高风险的”。筛选评估可能是由对儿童发展的特定领域进行过研究的大学进行的,比如学生进入幼儿园时应该具备的技能和属性,以增加他或她成功的可能性,或者行为模式、优势、这些挑战表明孩子有特殊的学习障碍。简而言之,评估通常是为高度专门的目的而创建的。

改革

虽然自一室校舍的日子以来,教育评估和测试已经存在,但他们越来越多地担任提高公立学校和教学效力的核心作用。例如,标准化测试评分可以说是美国教育成就的主导衡量标准,它们也是学校,教师和学校 - 系统性能最常见的指标。

由于学校越来越多地配备计算机,平板电脑和无线互联网接入,所以在学校管理的评估中不断增长的比例是基于计算机的或在线评估 - 尽管基于纸张的测试和评估仍然是普遍的并且在学校中广泛使用。鉴于数字评估系统通常提供传统纸张的测试和分配的功能通常提供一系列功能,新技术和软件应用程序也在改变无数方式的性质和使用评估。例如,在线评估系统可能允许学生登录并在课堂上的时间内登录并进行评估,或者他们可能会在评估完成后立即为学生和教师提供绩效结果(历史上,它可能需要花时间,教师的日子或几周审查,得分和等级所有评估)。此外,数字和在线评估通常包括功能或“分析”,使教育工作者更详细的学生表现的信息。例如,教师可能能够看到学生回答特定问题需要多长时间或者学生在获得正确的答案之前未能正确回答问题。数字和在线评估的许多倡导者倾向于争辩说,如果使用的话,可以妥善使用,可以帮助教师“个性化“指导 - 因为许多数字和在线系统可以提供关于学生的学术表现的更详细信息,教育工作者可以使用这些信息来修改教育计划,学习经验,教学方法,和学术支持策略以满足个别学生的不同学习需求,兴趣,愿望或文化背景的方式。我n addition, many large-scale standardized tests are now administered online, though states typically allow students to take paper-based tests if computers are unavailable, if students prefer the paper-based option, or if students don’t have the technological skills and literacy required to perform well on an online assessment.

考虑到评估有如此多的形式和服务于如此多的不同功能,对评估的目的和使用的全面讨论可以写一本很长的书。然而,下面的描述,提供了一个简短的,说明性的概述,评估的几个主要方式,特别是评估结果,用于改善学校和教学:

  • 制度和学校问责制当前位置评估,特别是标准化测试,在努力使学校、地区和州公立学校系统对提高学生的学业成绩“负责”方面发挥着越来越重要的作用。讨论最广泛、影响最深远的例子是2001年的联邦法律,通常被称为《不让一个孩子掉队法》(No Child Left Behind Act),它加强了联邦政府自上世纪90年代以来的期望,并要求各州发展学习标准管理教师应该教学,学生应该学习什么。在没有孩子的落后,每个年级水平都需要标准内容区域从幼儿园到高中。法律还要求3-8年级的学生每年参加考试,10-12年级的学生至少参加一次阅读和数学考试。自从该法通过以来,已经制定并实施了标准化考试,以衡量学生达到标准的程度,各州教育部门也公布了成绩。该法律还要求对不同学生“亚群体”的测试结果进行跟踪和分别报告,如少数民族学生、来自低收入家庭的学生、有特殊需要的学生和有特殊需要的学生有限的英语能力。通过公开报告不同学校和学生团体实现的考试成绩,并通过将这些分数与罚款和资金联系起来,法律旨在关闭成就差距并改善被视为表现不佳的学校。虽然没有孩子留下法案是近期历史上最具争议性和有争议的教育政策之一,但立法的技术性是高度复杂的,这是评估结果被用作问责制措施的一个例子。
  • 教师评估和赔偿: In recent years, a growing number of elected officials, policy makers, and education reformers have argued that the best way to improve educational results is to ensure that students have effective teachers, and that one way to ensure effective teaching is to evaluate and compensate教育工作者至少部分地根据考试分为他们的学生实现。通过基于教师的收入和工作保障在评估结果时,推理到来,管理员可以识别和奖励高性能的教师或采取措施,帮助低表现教师改善或从学校中删除它们。增长的政治压力,加上联邦拨款的承诺,促使许多国家开始在教师评估中使用学生测试结果。这种有争议的和高度争议的改革策略通常需要相当复杂的统计技术,称为增值措施或者增长措施- 确定各个教师对学生的学术成就有多少积极或负面影响,主要是在学生评估结果。
  • 教学改进:评估结果常被用作提高教学质量和学生成绩的一种机制。因为评估的目的是衡量特定知识或技能的获得情况,所以评估的设计可以决定或影响课堂教学内容(“应试教学”是一个常见的、经常带有贬义词的短语,用于描述这种普遍现象)。例如,形成性评估给教师提供关于学生学习的过程反馈,这可以帮助他们在教学过程中进行教学调整,而不是等到一个单元或课程结束后才知道学生学习材料的情况。其他形式的评估,如基于标准的评估或共同评估,鼓励教育工作者教授类似的材料,并以更一致、可靠或可比的方式评估学生的表现。
  • 学习需求识别:教育工作者使用广泛的评估和评估方法来识别特定的学生学习需求,诊断学习障碍(如自闭症,阅读障碍或非语言学习障碍),评估语言能力,或确定专业教育服务的资格。近年来,早期确定专门的学习需求和残疾,以及对学生的教育支持服务的主动提供,一直是众多教育改革战略的重大焦点。有关相关讨论,请参阅学术支持

辩论

在教育中,有广泛的一致意见是任何有效教育系统或计划的组成部分。Educators, parents, elected officials, policy makers, employers, and the public all want to know whether students are learning successfully and progressing academically in school.其中许多辩论是复杂,广泛的范围,通常是有争议的 - 通常是如何使用评估,包括所管理的频率以及评估是否有益或对学生有害或有害。虽然对这些辩论的全面讨论超出了这一资源的范围,但以下是讨论一些主要问题的代表性选择:

  • 是高赌注测试,作为问责制措施,提高学校,教学质量和学生成就的最佳方式?或者潜在的后果 - 例如专注于测试准备和牺牲其他重要技能的狭隘知识,或增加欺骗和操纵测试结果的激励措施 - 破坏使用测试分数作为一种持有的益处学校和教育工作者更负责,提高教育结果吗?
  • 是标准化评估真正客观的衡量学术成就?或者它们反映了内在的偏见——无论是在设计上还是内容上——偏袒某些学生,比如来自教育程度更高家庭的富裕白人学生,而非来自教育程度较低家庭的少数族裔和低收入学生?有关更详细的讨论,请参阅测量错误测试偏见
  • 考虑到一些学生可能比另一些学生更擅长考试,“一刀切”的标准化考试是否是一种公平的评估所有学生学习成绩的方法?还是应该给学生提供各种各样的评估选择和多种机会来展示他们所学到的知识?
  • 会更具挑战性和严格的评估能让所有学生取得更高的教育成就?或者他们最终会惩罚某些来自弱势背景的学生?反过来说,如果弱势学生没有和其他学生一样受到较高的教育标准(因为降低某些学生的教育标准,比如有色人种学生,这是否只会使他们进一步处于不利地位,并使历史上导致种族和社会经济的低期望的循环永续下去成就差距)?
  • 成本(金钱、时间和人力资源)是否超过了广泛、大规模测试的好处?投资于考试和问责制的资金和资源是否可以更好地用于高质量的教育材料、对教师的更多培训和支持,以及其他可能更有效地改善学校和教学的资源?考试的普遍使用是否提供了教育者可以用来提高教学质量和学生学习的有价值的信息?或者这些测试实际上占用了一些时间,而这些时间本可以更好地用于教授学生更多的知识和技能?
  • 技术学习应用程序(包括数字和在线评估)是否改善了学生的学习体验、教授他们技术技能和读写能力,或者总体上使学习体验更有趣、更吸引人?还是数字学习应用程序增加了教育成本,在学校引入不必要的干扰,或削弱了教师和教学过程的价值?