快捷搜索:  美女    名称  交警  美食

如何设计适合未来的教育考试

在北京教育改革的今天,我们不仅要就自身去“变”,也要借鉴国际上的、已经发展成熟的教育改革经验。剑桥国际考试委员会是全球唯一仍然隶属于大学的国际性考试机构,如今为160个国家和地区的1万多所学校提供服务,不仅提供考试和得到国际认可的资格证书,还面向学校提供课程大纲、学习资料、教师培训和支持,帮助它们为学生提供适合21世纪的教育。在北京教育督导研讨会上,剑桥国际考试委员会首席执行官沙利文先生在北京教育督导与评价研讨会上向我们描述了如何设计未来的考试。


沙利文在督导研讨会上做演讲。  摄/特约记者 丁柏明



考试目标应与学习目标挂钩


纵观历史,我们能够感受到重大考试制度对文明和社会产生的巨大影响。科举考试制度无疑在向整个华人世界推广共同的文学和哲学文明方面起到了深远的积极作用。然而,科举后来因为它缺乏对科学技术的关注而饱受批评。相比之下,现代高考格外强调科学和文化知识。然而随着社会的进步,对高考改革的呼声也越来越高。许多人会问,高考是否足够公平?高考能否真正考查学生亟待掌握的知识?它能否培育具有国际视野的人才?并非所有人对此持肯定态度。


教育评估领域的专业人士有时倾向于认为“考什么就教什么”。这种想法很有吸引力,当您试图推销考试时尤其如此。但毫无疑问,这种想法是错误的。如果正确,那么为了使学生掌握更多知识,只要提高考试的难度就足够了。实际上,这个错误在某些国家的教育部门非常普遍。


根据我的经验,这种想法更加准确的表述是“不考就不教”。因此,我们最好谨慎地设计考试,但在规划教育时,我们不能以考试作为起点。


教育的核心就是课程内容,即我们希望学生所学习的内容。这通常表现为某种知识和技能体系,学生不仅要掌握核心知识点,理解不同知识点之间的关联,而且能灵活运用这些知识点,展开相关的计算、分析、批评、解释等活动。关于知识和技能哪一个更为重要,最近出现了一些无谓的争论。事实上,我们在教育中所关注的一切事物都是技能和知识的复杂组合。阅读是一项技能,但必须具备语言结构和词语含义方面的知识。科学观察是一项技能,但必须知道如何以正确的方式寻找正确的事物。我们也许还会辩论空气和水哪一种物质对人类生存更加重要,这与探讨知识或技能哪一个在教育中更加重要如出一辙。


剑桥课程的任何科目都非常明确地阐述了所谓的“学习目标”:也就是对于学生在课程各个阶段所需学习的内容的详细描述。考试设计的基础是与学习目标挂钩的“考评目标”。借此,我们努力确保考试对必要的学习给予鼓励、认可和奖励,而非让考试本身成为一种目的。


采用这种方式推进的影响之一就是我们的考试很难评分。举例来说,由于化学课的学习目标包括开展科学实验的能力,因此某些考试必须在实验室中进行,并且通过观察进行评分。另举一例,针对18岁学生的历史课学习目标包括历史解读,所以对学生的考评必须通过论文进行,但需要由训练有素的考官来评分。采用这种方式对大批学生进行考核成本高昂而且困难重重,同时有关分数更正的申诉必然层出不穷,而且必须公平地加以处理。但是,我们仍然在广泛采用这些方法,因为我们相信,与考试设计中的成本或便利相比,对有用的学习给予鼓励和奖励更加重要。然而,我必须承认,针对中国的高考广泛运用此类方法也许不符合实际。在我看来,高考的规模以及至关重要的公平性,对这项考试的设计提出了诸多限制。


用“实验性”去评价21世纪技能


对所谓“21世纪技能”的评估,剑桥已经对可以找到的有关21世纪技能的所有文献资料进行了分析解读,并且我们自己也开展了多项研究。我们发现,尽管并非所有此类技能都真正属于21世纪,但包括解决问题和团队合作在内的许多技能无疑都对学生在大学和毕业之后取得成功具有重要意义,因此这样的技能应当给予鼓励。


其中一种鼓励方法就是在考试中进行考核,我们许多人也正在为此努力。但必须注意的是,在目前的研究阶段,即使在数学的领域中,人们对“解决问题”的真正含义也没有达成一致意见。“团队合作”的准确含义同样也没有取得广泛的共识。因此,我们应当谨慎地宣称自己有能力对学生的解决问题或协作技能进行评级和打分。务必采取一种实验性的方法。“实验性”不仅意味着先尝试各种事物,还意味着对某一项理论努力证伪,并在经过大量实验表明其可能基本正确后方才予以接受。并非所有教育考试提供机构都能照此行事。


教育数字化评估避免落入高频、仓促


如今,数字技术在教育评估中越来越普遍的应用。整体上,这是一个非常积极的趋势,为将来更好、更快、更低成本、更灵敏地实施学生评估带来了巨大潜力。例如,计算机适应性测试和虚拟现实都为教育评估开启了新的可能性。不难想象,未来的教育和评估将100%实现数字化,剑桥已经在进行这方面的测试。


但是,如果方式不当,数字化评估也存在某些风险。其中之一是有可能出现高频度、低成本、评分仓促的学生评估。在美国,由于主要依赖越来越频繁的低成本标准化测验,雄心勃勃的“No Child Left Behind”(“有教无类”)运动演变成一场灾难。这种拔苗助长的方法最终分散精力,打击士气,在教育方面收效甚微。孩子们的学习节奏肯定不会相同,过多地检验这一点毫无意义,同时频繁考核不在教学范围中的内容无疑也毫无意义,这恰好证明了“考什么就教什么”的错误性。


如今借助数字化评估,对部分内容的检验十分简单易行,然而如果数字化评估实施不当,另一种风险则是那些不易借助数字化方式评估的重要技能未能得到足够检验。例如,针对长篇幅书面答案的高品质机器评分仍处于早期开发阶段,并且在多数情况下尚无法应用于重大考试。我们应当注意的是,急于采用仍需进一步研究的数字技术,可能降低评估的质量。


■相关链接

关于北京高考改革的建议:


同一项考试不应被应用于过多目的


优秀的考试设计取决于考试的目的,这一点必须精确清晰地加以确认。有时,同一项考试被应用于过多的不同目的:评估学生,开展遴选,评估教师和学校。一般而言,考试的目的越简单和明确,设计得当的可能性就越大。  


对于高考改革,我认为由于高考的目的非常明确,那就是中国的大学入学考试,为考试提供支持的各种现有技术也正逐步完善,因此在设计上取得显著进步是完全有可能的。但是,出于多种原因,我认为对高考的“颠覆式”改革也许并不明智。突然的全面变革在整个社会看来必然有失公平。考试发生突然的大规模变革,也将很难确定学生的表现是进步还是退步。并且任何创新举措也都需要得到评估,只有在评估的基础上,这些举措才能进一步完善。


□文/沙利文(剑桥国际考试委员会首席执行官)


您可能还会对下面的文章感兴趣: