关于SAT考试研发新题的那点事

2022-05-23 13:38:13

  面对来自外界的各种疑问及质疑,关于新SAT考试是否会延续使用旧题的问题上,美国给出的答案依旧是肯定的,这个问题的背后是研发一套新题的代价是什么?旧题

  近日,陆续有SAT考生收到CollegeBoard的来信,要求6月4日考试的同学签署一份保密协议:为了确保考生是为了正当理由(申请大学,申请奖学金,申请其他项目等等),我们已经更新了考试安全策略。请于2016年4月19日下午5:00前,填写确认函,否则将视为取消考试。

  根据目前的反馈,只有部分6月考试的同学收到了CB的来信。不过目前的猜测是CB正在分批发送邮件,因为有些在同一个考场考试的同学都收到了邮件。

  从2014年10月以来,CB在亚洲的考试分数有6次延迟发生,并且取消了两次考试。另外,除了CB公开承认的“安全事故”之外,从2013下半年到现在,在考试之前试题材料在网上流传的情况,至少出现了8次。

  再综合之前3月份北美考试之前的突然转考大龄考生事件来说,CB终于开始有了该有的安全责任心,想把考试的公平性尽量做到最大。

  但是,这些举措的作用到底能有多大?

  举个简单的例子,转考大龄考生有用的话,为什么今年3月5日北美考试一结束,真题就在网上流传开来? 大龄考生的攻破点很简单,投机的培训机构的老师没办法去考试,就不能雇学生去考试、背下整个考题吗?另外,CB还声称为了防止中国的作弊现象,取消了自己在中国的一个行政分支。。。这些看似大动干戈的行为无非是走走过场,无非是给CB自己、给各位单纯的考生以一针安慰剂,对于防泄题的考试公正性维护止于隔靴搔痒。可见,CB要想平衡考试的信度、效度及公正性,这条路仍然任重道远。我们绝不否认道德约束的力量,但鉴于投机的培训机构的“空前盛况”,这绝不是简单的一纸协议就能解决的事情。毕竟道德约束有用的话,?

  而问题的根源,主要还是在于旧题的循环利用。而旧题循环利用的根源又是:研发过程难成本贵。

  研发一套真题到底有多贵多难?下面我们来看看!CB开发一套SAT考题过程非常繁琐,关键步骤就有12个:

  据知情人士称,仅仅开发一版SAT考试,就有可能耗时长达30个月以及花费大约100万美元。

  以ACT试题编写过程为例:

  试题编写(Item and Prompt Writing)

  ACT考试邀请全美各地高中和大学的教师参与编写考试试题(而不是由一个试题编写小组来承担),ACT的工作人员会给试题编写者提供有关试题内容,认知技能水平,试题形式等方面的编写规范,并定期开展交流研讨活动。ACT考试特别强调考试试题要能够反映全美的文化多样性,也要求试题编写者,能代表广泛多样的文化背景。他们来自于不同种族,不同人种,从而可以编写出反映多种视角的试题。

  试题修订、评阅(Item Editing and Review)及试测

  ACT考试的工作人员及ACT聘请的专家小组会对每一道试题进行审议。主要审查试题的内容是否科学准确,是否符合试题规范,对不同社会群体的描述是否公平,尤其是要避免涉及对某些社会群体不熟悉的内容。另外,语言的使用要防止出现性别歧视的倾向。ACT科学家与专家小组一起开会,在一些能够代表总体的样本考生中进行试测,以了解这些试题的难度水平是否适宜,以及是否能正确地发挥测量功能。试测合格的试题被纳入ACT题库。

  试卷编制(Test Construction)

  首先,从ACT考试题库中,根据ACT的试题结构抽取出规定数量的试题,编制成一份试卷(One Form)的初稿。然后要针对试卷初稿的内容与公平性进行评阅和小组讨论。只有试卷的各部分及总体效果均符合ACT编制的最高标准与规范,并且确保了所有各套试卷在总体难度上基本对等,具可比性,各套试卷才可以在全美及世界范围内正式地投入使用。

  最后,在考试实施之后,立刻要对试卷开展统计学评价:一是试题分析评价(Item Analysis Review),主要是评估各道试题是否如预期地那样正确地发挥的测量功能;二是试题功能差异评价(Differential Item Functioning Review),主要评估各道试题在不同考生群体中功能运作得是否有差异。经过这样的统计学分析,发现存有潜在的偏见或歧视嫌疑的试题。如果在进一步的仔细审议中确认存在问题,ACT会采取适当的行动,确保因此受到影响的学生最终得到一个正确而公平的分数。

  面对一年7次/6次考试,北美考区和亚洲考区,成本始终是一个问题...

  这里所说的泄题最大的漏洞在于重复使用旧题,并不是说完全使用新题就可以杜绝这个问题,比如时差问题也会造成同一次考试不同考区的题目泄露。

  不过,说到底时差问题也是一种另类的”重复“,理想化的方法是,亚洲考区不同国家采取不同的试卷...

  另外,重复使用考试材料的有一个标准化考试的科学原理支撑:美国大学委员会必须确保一项考试的不同版本之间在分数上具有可比性,而在海外重复使用之前在美国执行过的材料有助于实现这一点。

  综合文章前部分,CB一套全新的SAT命题过程的12个步骤里,有一半是审核评估。这也印证了CB力求标考科学原理的追求,尽量做到可靠性、无偏见。往深了想,这些可靠性、无偏见性其实依托的是很多套历经考验,数据完善的考题。

  而可汗学院的练习题,也许可以满足这部分的需求。通过可汗学院的丰富题库,CB或许可以从中获得大量用户的免费测试,以此改善命题流程,降低命题成本,快速获取大量可用题目,丰富题库。这也未尝不是一个加速题库更新的好办法。

  希望新技术和新系统的出现,可以最大限度的抑制屡禁不绝的作弊现象,给中国考生一个公平展现自己实力的机会。

相关推荐:

考试安排