English version
English

新课程背景下的学业评价:测量理论的价值

来源: 作者: 发布时间: 2006年 05月 15日 浏览: 打印
新课程背景下的学业评价:测量理论的价值

作者:辛 涛 文章来源:北京师范大学学报社会科学版2006年第1期



[摘要] 当前学业评价中存在的主要问题是:尚未形成一套规范的学业评价体系;缺乏对考试信息的深度挖掘;未能体现考试的诊断和发展功能。这些问题的解决在很大程度上有赖于真正将心理与教育测量理论应用于学业评价之中。在新课程背景下的学业评价应以能力导向性、发展性和规范性为三大原则,把测量理论与技术运用于学业评价中,建立一套规范化的学业评价体系,借助认知诊断理论充分挖掘考试信息,具体体现学业评价的诊断功能。

[关键词] 心理测量理论;学业评价;认知诊断;信息技术

在新一轮的教育改革当中,现存的考试制度和考试形式受到了很大的质疑,似乎考试应该为目前存在的应试教育的种种弊端负责。其实这种责难并不合理,诚然现存的考试形式存在许多问题,但它并非导致目前基础教育所存在问题的祸首,基础教育中存在的一些主要问题另有其根源。从我国的历史文化和社会现状分析,着眼于教育,特别是教育评价的公平性原则,我们不能简单地否定现存的考试形式,而是要对这种考试形式进行完善,使之更有效地服务于新课改的要求,进而推进教育改革的深入。

一、当前学业评价中存在的主要问题

虽然我们反对把现存的考试制度看成是应试教育的替罪羊,但现存的考试方式确实存在一些明显的问题,其主要表现在以下几方面:

其一,现有的考试功能非常单一。在当前学业评价中,考试成了对学生进行排队的工具,缺乏对考试信息的深度挖掘,未能体现考试的诊断和指导功能。事实上,如果能够深入地挖掘考试中反映的信息,那么仅仅通过一种考试也能让老师敏锐地发现学生存在的某些方面的问题。另外,考试的功能应该是多样的,如果仅将其局限于排队功能,就在一定程度上助长了应试教育的盛行。

其二,考试内容的人为性和主观性明显,这在关键性的考试,如中考、高考中表现得尤为突出。我国的大型考试内容往往因为命题人员的变动而各有侧重、各有不同;而国外则相反,以美国为例,其大型考试,如学术潜能考试(SAT)、托福考试等,考试内容非常固定。

其三,现有考试以测试学生所掌握的知识为主,基本上没有反映出考生的学业能力,而且所测查的知识以学生死记硬背的知识为主,缺乏知识之间的联系与组合。

其四,考试过程缺乏心理测量学(psychometrics)的指导。美国的考试之所以具有很高的公信力和很强的科学性,是因为这些考试都是在心理测量学基本原则的指导下进行的,而我国到目前为止,心理测量学还没有真正融入考试的实践中去。

其五,考试的形式单一,基本上是以纸笔考试为主要形式,缺乏其他的考试形式。

其六,上述问题的出现,一个主要的原因是我国对考试理论和心理测量学的研究非常薄弱,研究考试问题的学者非常少,因此用心理测量学的原理指导考试实践就无从谈起。

要克服上述问题,我们就有必要简要回顾在考试实践背后的测量与考试理论研究的进展,从中寻找可能的问题解决途径。

二、测量与考试理论的历史演进

测量理论自身的重大发展出现在20世纪,可分为两个阶段[1]

第一个阶段为古典测量理论阶段,其时间在20世纪五六十年代之前。这一阶段,测量理论的主要特点是以真值理论为基础,以信度、效度、难度和区分度为指标。其基本假设是考生的分数并非一个绝对的值,而是其真实能力或技能的反应与测量误差的和,所以称为真值理论。在这个假设的基础上延伸出来了信度、效度、难度和区分度这些概念。另外在这个阶段,人们逐步建立并完善了测验发展的标准化程序,通过标准化的程序提高所编制测验的信度和效度。古典测量理论对于考试实践曾经起过非常大的指导作用。


第二个阶段为项目反应理论阶段。自20世纪60年代开始,围绕古典测量理论的一些问题展开的讨论促进了测量理论的新发展,最终导致了新的测量理论的产生,即现在流行的项目反应理论。项目反应理论的主要特点是:采用严格的数学模型来刻划不同能力水平的测试者对测试题目的反应模式。项目反应理论相对于古典测量理论来说取得了巨大的进步[2](P147-200)[3][4],以一个简单的例子来说明:在古典测量理论中,一套题或者一道题的难度是以通过率来定义的,即通过某一题目的百分比。但问题是,对不同能力水平的考生来说,难度概念的意义是不一样的,即能力低的考生觉得难的题目,能力高的考生并不觉得难。所以古典测量理论的难度概念往往是一个平均的概念,区分度也存在同样的问题。它们都没有真正地反映出题目和被测试者之间一种真正的交互关系。项目反应理论针对上述问题对古典测量理论进行了拓展,体现出了它的优越性,而且项目反应理论还与信息技术进行了有效的结合,在最近几年取得了长足的发展,其应用领域得到广泛扩展,例如当今的托福考试以及GRE等考试都运用了项目反应理论。它已经颠覆了古典测量理论,呈现出巨大的应用前景,目前正在蓬勃兴起的计算机自适应测试就是一个有力的证明。

但是项目反应理论也并非完美的测量理论,它也存在一些有待完善的问题。这些问题主要来自于项目反应理论三个非常严格的基本假设,即单一维度假设、局部独立性假设和单调递增假设。因此从20世纪90年代至今,围绕项目反应理论产生了很多新的研究和新的动向,如:多维度项目反应理论[5]、非参数项目反应模型[6][7]和认知诊断理论[8]等。值得关注的是认知诊断理论,运用这个理论,我们能更深入地了解隐含在考生总分背后其认知技能之间的差异,这为我们深入挖掘考试信息提供了一个有力的工具。

三、新课程背景下的学业评价的原则。

基于测量理论的发展所提供的启示,思考目前在基础教育学业评价中的问题,我们认为在新课程背景下学业评价应体现以下三方面的原则:一是能力导向性原则:即重在评价技能水平而非传统的知识。知识固然重要,不应被忽略,但是考试形式应该从以前对零碎知识点的考察向现在以技能为考察点转变。二是发展性原则:即体现对学生发展的促进。考试要体现对学生发展的促进,这是新一轮的素质教育和新课程改革中非常强调的一个核心概念,但遗憾的是,现在的考试中很少有人提到发展性原则,即如何让考试为基础教育服务的问题。三是规范性原则:即反映学业评价的规范化。如果中考等考试能够形成一种规范化的程序,那么通过这种程序,就能最大程度地降低考试中出现的人为性和主观性。


四、测量理论与技术在学业评价中的应用

用心理与教育测量的理论来指导考试,将使考试的功能得到充分的发挥,也能在考试中实现前文所提的新课程背景下学业评价的几个原则。具体而言,我们认为应突出强调以下几个方面:

(一)在测量理论的指导下,建立一套规范化的学业评价体系

我国目前尚未建立起一个完整缜密的学业评价体系。把三五个教研员集中在一个相对封闭的环境中大约两三个星期,然后编出一套卷子,这大概是我们国家现在比较通行的一种形式。如果再严格一些,就是这些教研员在考试之前不能出来以免漏题,这是目前为止最为严格的程序。但即使是这样的程序,如果我们仔细斟酌,仍然有很多漏洞。国外考试命题的过程有一套严格的标准化程序,他们的命题、组题、出题过程包括以下10个基本方面[9]:(1)澄清测验使用的目的与测量结构;(2)辨别用以表征所测量结构的范围;(3)准备试卷细目表(testspecification);(4)发展题目编制细目表(itemspecification);(5)考虑试题的格式;(6)题目编制细目表之后再请相关的人员去编题;(7)题目审查;(8)题目的预试:在编题之后不是立即对学生进行测试,而是在进行大范围测试之前,先进行预试,以确定试题的属性;(9)试题分析;(10)确定试卷,编写试卷使用手册。对照以上标准化的试卷编制程序,我们不难发现,我国学业评价在此方面与之存在巨大的差距。我们认为,当前我国的学业评价在命题过程中应着重解决以下问题:

1.澄清测验使用的目的与测量结构。出题伊始即要考虑考试的目的是什么。测量学特别强调一个测验或者一个考试本身所要测量的心理结构是什么,这种心理结构在考试中通常是以能力来体现的。比如说某套卷子要测查学生的基本状况,那么这些状况从什么角度去切入、去测量是很重要的一个方面。又如美国的SAT,它是美国高中生升大学的一个很重要的参考指标,如果者的思路来考虑,它应该包括很多方是SAT的题目实际上仅仅考了两个力,一个是学生的言语运用的能力,基本技能和思维能力。对比来看,在考制度下,高考考察了十几门学科,都涉及很多的知识点;而美国的SA最基本的能力,所有的题目都是从这发出来的。他们在出题时考虑了心理考试,如中考命题,命题老师只考虑点必须考查什么,这与国外的做法是不同的。


2.辨别用以表征所测量结构的量结构和所测技能。之后,需要思考:和所测技能,什么试题范围能测量出比如要考察言语运用能力,那么试题个范围之内,应该包含什么样的内容于我们所考虑的知识点,即考察什么体现出这种能力。我国命题人员缺量结构的定义,直接考虑知识点,总想要覆盖所有知识点。一旦有了结点时,我们就会发现知识点都是服务技能和结构的,不存在难以取舍的问的结构定义很重要。此外在编题之前题目编制细目表和试卷编制细目表。

表1 国外小学数学题目编制的细目表举例


子技能:小数乘法的计算技能

题干的特征

1.题目中应当包含两个小数、分数或一个小数一个分数

2.题目应当表示为句子或竖写的乘法算式

3.乘数和被乘数中有一个包含3位非零的数字,另一个也包括3位数字,这其中两个数字不为0,而且整个数字大于5

4.乘数和被乘数都应包括一位小数位

5.乘积不能包含三位或以上的小数位

6.最少包括二步重组运算

7.在选择数字时,一个数字只能出现一次

答案的特征

1.格式:根据小数的位数,所有的被选答案按升序或降序排列

2.四个被选答案:一个是正确答案,一个错在相乘时数字重组的步骤,一个错在相乘时数位对

齐,一个错在忽视小数点或者小数点的位置不正确

3.另一个可能的选项:“a,b和c都不对”,这个选项出现在第四个被选位置上


3.确定题目编制细目表。到目前为止,我国的学业评价考试在命题之前基本上没有题目编制细目表,这可能是造成我国考试命题主观性的一个重要原因。表1中呈现了一个国外题目编制细目表的例子[10],从该表我们可以看到:出题者设置错误答案时,不是一个正确答案随便加上三个错误答案,而是每一个错误答案都有一定道理。细目表对出题者的要求具体到了可操作化的地步。这样,出题过程最大限度地平衡了经验的影响。但这并不是说经验不重要,而是指仅仅凭出题人的经验来出题,很难保证试卷的科学性、准确性和标准化。参照细目表,有经验的老师可以出题,经验比较少的老师可以出题,一个普通的数学或者理科的大学生也可以出题。

4.考虑试题的格式。在题目编制的同时要考虑试题的格式。测验的格式主要有客观题和主观题两类。客观题包括填空题、选择题、排序题等等,主观题也就是国内常说的开放题。到底哪种格式合适,这是一个需要经过不断讨论的问题。并不是说不能出主观题,主观题也可以出,但是问题的关键在于:出了主观题之后,如何对学生后继的反应进行评价。以托福考试为例,托福考试的前面主要是客观题,即选择题,最后有一道作文题。作文题常常是给一个场景,要求学生用120个左右的单词写一个短文。这跟我国的考试非常类似,但是差距在于怎样对这些主观的题目进行评价。国内的评价是评卷老师根据自己对作文整体印象打分。国外的评价则是尽可能追求客观化和标准化,以求最大限度地减少人为影响。ETS的评价指标是:首先是字数有没有达到要求,其次是在此基础上,看单词拼写有没有错误,有几个错误,然后看语法有没有错误,最后看文章大概包括几个句子,长短句分别是多少,使用何种词汇,句子长短如何等。因此,如果我们采用主观题评价一定要充分考虑怎样最大限度降低人为性,在命题之初制定详细、可操作的评分手册。

5.采用适当的途径。在试卷正式使用之前尽可能地获取试题的属性,以便调整试卷。在古典测量理论框架下,题目属性指的是题目的难度、区分度、信度、效度;但是在项目反应理论发展之后,这样的题目属性还包括:题目特征曲线(item characteristic curve, ICC)和题目信息函数(item information function)。题目的特征曲线反映了不同能力水平的考生正确回答某个题目的可能性大小,而题目的信息函数(item information function)是指一道题对哪种能力水平的考生是最敏感的。另外,除上述特征之外,其他属性如知识负荷、技能属性以及更复杂的认知属性、反应时间等都可以作为题目的属性。

既然题目有这么多可以利用的属性,那么怎样获得题目的属性呢?一般来说,我国的作法是由出题人员去估计。区分度、信度、效度这些概念很难估计,一般就是估计题目的难度,但出入非常大。我们曾经分析了2004年某个新课程试验区某一科考试的难度指标,发现仅在前四道题中就有三道题目的实际难度和估计难度不一致,只有第三道题与估计值基本一致。这说明出题时靠出题人员去估计很难做到准确,而且也只限于估计难度。对于题目的信度、效度、区分度,题目的特征曲线以及题目的信息函数,出题人员很难或者无法估计。

在国外,题目属性是通过预测验获得的,即编制一组题并大面积施测。考试之前,选一个跟考试学生基本同质的小群体,比如几十人或者几百人的群体,用这一组题进行预试,通过他们的施测结果精确估算所有的指标,如信度、效度、题目的特征曲线等。预试的样本与测试的总体同质,保证了将来在总体中施测的指标也不会有太大的变化。从概率的角度来说,由于它本身测量的是一个真值,所有的变异都是误差变异,因此各属性保持相对稳定。

(二)利用心理测量的理论与技术,充分挖掘考试信息,具体体现学业评价的诊断功能

考试更重要的价值在于诊断,因为考生对试卷的反应中包含着丰富的信息,充分挖掘这些信息对学生学习和教师进行有针对性的指导至关重要认知诊断理论为我们的这种需求提供了技术支持认知诊断的目的在于根据考生对考试题目的反映模式,将传统的单一考试分数转化为考生对试题中所涉及的认知过程与技能的掌握概率。该理论关注的主要问题是:被试在特定考试中所采用的认知过程(cognitive process)和知识结构(structure of knowledge)是什么;这些认知过程与知识结构在考试中是如何被运用的;高能力被试与低能力被试在考试中有何不同。认知诊断理论比较有代表性的模型包括Tatsuoka的规则空间模型(the rule-spacemodel)[11]、Mislevy以概率为基础的推论(the probability-based inference)[12]、Corbett和Anderson等人的学生思维模拟(student modeling)[13]以及Britton和Tidwell的认知结构诊断(cognitive structure testing)[14]等。Chipman、Nichols和Brennan总结已有的认知诊断模型认为所有的模型可以归结为三个类别,即学生的思维模拟、概念网络(conceptual networks)和心理计量的特质(psychometric attributes)。在众多的模型中,规则空间模型(RSM)是发展最早,也最具有影响力的一种认知诊断模型。

规则空间模型的提出,就是为了诊断学生在解决复杂评价任务时所使用的技能成分中存在的错误。通过把学生的学科成绩分解成几个有效的、不同的认知子技能(称为。属性。)成分,该模型能够测量每个学生在每个属性上的掌握水平,最终描述出学生的知识状态或认知技能属性。如今,RSM方法已经被成功运用于许多大型考试与评价项目,如PSAT/NMSQT,GRE,NAEP、SAT-I以及TIMSS等。

具体来说,RSM分为两个阶段。第一阶段,抽取特征并生成一个项目)属性的Q矩阵,然后决定所有可能的潜在知识状态。第二阶段,把学生的反应模式划分到预先决定的潜在知识状态中,然后计算被试的属性掌握概率。Tatsuoka指出:规则空间模型可以寻找学生用于解题的潜在策略并构建相应学科领域中技能的等级关系;查找学生解题错误的原因,将参加测试的学生的知识与技能掌握状况进行精确地归类,对学生知识和技能掌握状况提供个性化的诊断报告;并进而对教师的教学状况提供具体的诊断报告,提供关于教学质量和学校课程优劣的有用信息,并为教育者提供充分的总结性评价信息。

(三)利用考试信息,体现考试的发展性功能

如何利用考试信息促进学生的发展是一个重要的问题。回答好这个问题,可以有效地缓解社会对学业评价和考试的怀疑与否定的态度。我们认为要体现学业评价的发展性功能,可以从以下三个方面入手:首先,标准化考试记录了学生学业成长的历程。如果我们的学业评价题目是经过精心设计的,那么这些考试的成绩累积起来就准确地反映了一个学生的学业发展状况。我们可以通过学业的变化情况来了解学生在一定学习阶段的学习状况。其次,通过深入挖掘每次考试中学生对试卷的作答信息,我们可以获取一个学生在知识、技能等方面掌握状况的诊断性信息。通过这些信息,发现学生在知识与技能掌握上存在的问题,以便于学生自我矫正和教师有针对性的指导,其结果必然是促进了学生的学业发展。最后,利用考试信息,可以定量地考察学生的发展状况。一种简单的方法是相对位置比较。如果假定两次(或多次)考试具有可比性,那么我们可以通过计算一个考生的成绩在每次考试中的相对位置来比较其学业发展变化的趋势。更为合理的,我们可以用一个学生前一次考试的成绩来预测其后一次成绩。在此情况下,这个回归模型中的预测误差就可以作为学生学业发展的指标。其实从更广义的角度看,这类问题属于心理测验中的等值(equating)问题或链接(linking)问题。目前这方面的研究很多,是心理与教育测量研究的一个重要领域。但是这类研究所涉及的统计模型比较复杂,要应用其研究成果,有赖于心理测验研究者将理论模型翻译简化,使之成为一线教师或其他人员可以理解的语言。

五、实现测量理论价值的途径

既然测量理论对于基础教育中的学业评价有如此重要的价值,那么如何实现这种价值呢?我们认为实现测量理论的价值有以下几个途径:第一是以测量技术为指导,形成我国学业评价的标准化、规范化的程序。尽管现行的学业评价体系受到众多的质疑,但是我们认为形成规范化的学业评价体系不仅是回应众多质疑的有效措施,而且可能也是学业评价乃至各类考试在未来的根本出路。第二是强调测量专家、教育专家和命题人员的结合。要应用心理与教育测量理论,一个主要的障碍是现在的测量与考试理论高度数学化。这就要求从事测量理论研究的人员不仅要进行理论研究,而且要将测量理论介绍给其他领域的研究者和实践者。同时,从国外学业评价与考试,特别是大型考试的经验来看,加强测量专家、教育教学专家和考试命题人员的结合,发挥各自所长,是提高学业评价质量和效果的关键因素。第三是要重视信息技术的应用。信息技术和测量与考试理论的结合是当前测量理论发展的重要趋势,其标志性的成果就是计算机自适应考试(computerized-adaptive testing, CAT)的出现。所谓计算机自适应考试就是依据项目反应理论,由计算机自主呈现测验题目,如果学生正确回答一个问题,计算机则自动估计其能力水平,然后呈现更困难的问题;如果学生不能正确回答一个问题,计算机则自动估计其能力水平,然后呈现更容易的问题,直到计算机对其能力的估计稳定在某一水平为止。CAT之所以引起人们的高度关注,是因为它表现出一些非常诱人的特点:其一,采用CAT大约节省50%的考试时间;其二,采用CAT,不同的学生将接受不同的考试内容;其三,此方法对学生能力的估计更为准确;其四,将对学生不同能力水平的估计放在同一尺度上,便于报告和分析。到目前为止,我国还没有真正意义上的CAT,但在可以预见的未来,信息技术在学业评价中的应用将是不言而喻的。


参考文献

[1] 辛涛.项目反应理论研究的新进展[J].中国考试,2005,(7).

[2] Hambleton,R. K. Principles and selected applications of item response theory[A]. R. L. Linn(Ed.).Educational measurement (3rded)[M]. New York Macmillan. 1989.

[3] Hambleton,R. K. & Swaminathan, H. Item response theory Principles and applications[M]. Boston, MA Kluwer- Nijhoff. 1985.

[4] Hambleton, R. K. , Swaminathan, H. & Rogers, H. J. Fundamentals of item response theory[M]. NewburryPark, CA SAGE. 1991.

[5] Reckase, M. D. The past and future of multidimensional item response theory[J]. Applied Psychological Measurement, 21, 25-36. 1997.

[6] Junker,B.W.&Sijtsma,K.Nonparametric Item Response Theoryin Action An Overview of the Special Issue[J]. Applied Psychological Measurement, 25(3) 211-220. 20011

[7] Douglas J. & Cohen A. Nonparametric ICC estimation to assess fit of parametric models[J]. Applied Psychological Measurement, 25 234-243. 2001.

[8] Nichols,P.D.,Chipman,S.F.&Brennan,B.L.Cognitively Diagnostic Assessment[M]. Hillsdale, NJErl2baum. 995.

[9] Allen, M. J. & Yen, W. M. Introduction to Measurement Theory[M]. Long Grove IL Waveland.2002.

[10] Chatterji, M. Designing and Using Tools for Educational Assessment[M]. Boston, MA Allyn & Bacon 2003.

[11] Tatsuoka, K. K. Statistical pattern recognition and classification of latent knowledge statesCognitively Diagnostic Assessment[M]. Mahawah, NJ Erlbaum. In press.

[12] Mislevy, R. J. Probability-Based Inference in Cognitive Diagnosis[A]. P. D. Nichols, S. F. Chipman, & R. L. Brennan(Eds.). Cognitively Diagnostic Assessment[M]. Hillsdale, NJ Erlbaum. 1995.

[13] Corbett, A. T. , Anderson, J. R. & O'Brien, A. T Student Modeling in the ACT Programming Tuto[A]. P. D. Nichols, S. F. Chipman, & R. L. Brennan(Eds.) .Cognitively Diagnostic Assessment[M] Hillsdale, NJErlbaum. 1995.

[14] Britton, B. K. & Tidwell, P. Cognitive Structure Testing AComputer System for Diagnosis of Expert-Novice Differences[A]. P. D. Nichols, S. F. Chipman, & R. L. Brennan(Eds.). Cognitively Diagnostic Assessment[M]. Hillsdale, NJ Erlbaum. 1995.