欢迎来到百学网!

全国切换城市

咨询热线 13552901487

百学网 > 新闻资讯 > 教育综合 >  考试区分度怎么算_考试区分度怎么计算

考试区分度怎么算_考试区分度怎么计算

来源:爱必学

2025-06-05 19:13:40

一个有效的考试要有“区分度”,这是我们经常会说的,什么是“区分度”,大家也是比较容易理解的,即每次考试能够把学生的等级区分开来,一般有个“常态分布曲线”或称“正态分布”。简单地说,就是每次考试,得优秀和不及格的两头人数较少,大部分学生处于中间状态。

但是,另有两个词:“信度”和“效度”,近几十年也经常出现在谈考试的文章中。但是究竟什么是“信度”、什么是“效度”、两者之间是什么关系,并不一定每个人都清楚的。

1

语文测试的效度与信度

1. 效度

考试的“效度”就是它的“可据性”,所谓“可据性”是指“根据测试分数所作的推断是否正确和适当的问题。”也就是“成绩测试题目是否真正代表了一个人对之作出推断的目标和技能”(布卢姆102页),举例子说:教师出一套考题,目的要测试出一个班级学生的语文水平――阅读与写作能力。

如果一个班级中测试分布结果真正反映了他们的水平――平时阅读写作能力强的人得较高分数,较差的人得稍差的分数,那么这次考试是有效度的;反之,如果考试结果平时成绩差的人反而成绩高于成绩好的人,那么这次测试效度就较差。造成这个结果的原因,可能是试卷本身有问题,也可能是阅卷的问题。

相比于数理化学科,语文测试的效度往往要差一点。因为语文测试中有许多主观性试题,它是一种“价值判断”而非“真伪判断”,例如一个人长得漂亮与否,可以打几分,因人而异,不像身高可以丈量。所以,主观性试题的评分很难保证客观公正。上一次已经说过,不同的阅卷者对同一个答题会有不同的评分,甚至同一个阅卷者,在不同的时间给一道题评分时会有不同。关于语文测试的效度,后面还会说到。

2. 信度

所谓“信度”就是可靠性程度,“一组考试分数的可靠性程度(信度),指的是这样一种连贯性(稳定性):“如果反复进行测试,结果总是使学生处于同样相对位置。如果上午对一组学生进行测试,下午再对他们进行同一测试。我们一般都会料想受试人每次的名次排列大致相同。如果不是这样,我们会说成绩不稳定。”(108页)这种“不稳定”就是缺乏“信度”。

如何提高一次测试的信度?(1)、要确保试题内容提供的知识正确无误;(2)题干要求明确,不会产生歧义;(3)、评分者要有一致性,或同一个评分者在不同场合中所评分数要一致;(4)、提高题目的辨别度,题目中不能有含糊不清或者“微妙的语言”;(5)、提供的答案必须正确无误。(150页―151页)

每一次考试的信度涉及命题、阅卷两个步骤。并不是考试只要有信度就可以了,这里还有“效度”问题。

3、效度与信度的关系

效度与信度是一种什么关系呢?简单地说:“可据性(效度)在一定程度上依赖于可靠性(信度)。但可靠性(信度)并不依赖于可据性(效度)。”(109页)换言之,首先,“信度”是效度的必要条件,没有信度的测试是没有效度的。例如:试题本身有常识错误、题干要求含糊不清、或者在阅卷过程中有人为因素,如故意拔高(压低)主观性问答题或作文分数等等,造成了考试缺乏信度,这种语文考试是没有效度的。其次,即使有了“信度”,仍然不能保证“效度”,例如,我们想要测试学生的语文读写能力,但是我们却编制了一套关于语法知识和文学常识的试题,尽管从测试程序和题目抽样看具有很高的可靠性(信度),但是它却无法测试出学生的语文阅读写作能力,所以这样的考试也是缺乏效度的。第三,还有一种情况,“如果许多学生都能回答根据要读却又懒得去读的一段文章提出的问题,那么关于阅读领会力的推断也就没有根据了。”(105页)每年高考中考乃至许多区级“统测”“摸底”“模拟考”出现的现代文,有很多是命题者随机找到――或从报刊上、或从某本书里、或者干脆写一篇?尽管为了避免“撞题”,命题者惨淡经营,上穷碧落下黄泉,有时候还得进行删节以适应命题需要,结果这些都是大多数学生都“懒得读”却“不得不读”的语段,然后按照要求进行回答,这样的测试信度、效度究竟如何,只有天晓得。天天训练这样的题目,还要责怪我们的学生不会写文章,天理何在?

每一次终结性评价(考试)的“效度”除了“信度”以外,还有一个先决条件――就是区分度,这是由试卷的难度决定的。试题太容易,一个班级平均分如果超过80分(百分制),这就是测试的效度不足了;相反,平均分不到40分,全班都不及格,这是太难了。太容易和太难的试题都是效度不高的,因为它无法给教师提供这些学生某些学科水平的真实证明。例如,我们的一个学生中考语文得了135分,结果他在高中时,阅读和写作能力还达不到班级的平均水平,显然,他的中考语文成绩是缺乏效度的。当一次考试平均分超过120分(总分150)时,这种考试区分度就不大了,自然效度不足了。这个容易理解。中考、高考中的“现代文阅读”大体可作如是观,也就是说,这类试题不具有终结性考试的效度。当一道题赋分是5分,结果平均分只有1分或零分时,当一道赋分5分的选择题或填空题考生的平均分得满分或1分时,这个题目也没有区分度,自然就是缺乏效度的;当一类题目得分结果无法将重点中学学生与普通中学学生区分开来时,它们的效度也是值得怀疑的。凡是缺乏效度的考试,最终吃亏的是那些优秀学生,理由以后再谈。

效度(可据性)还与测试的内容、试题的构造、评分的准则有关。因为比较复杂,这里暂且不解释。

4. 为什么作文是语文考试不可或缺的

既然这样,为什么还要出主观性试题包括作文呢?

这是由语文学科性质特点决定的。上一次引过布卢姆的话:“教师打算度量学生的写作技能――唯有陈述性试题才可能让学生展示出合意的行为”。施良方在论述主观性试题的“适用范围”时说:“(它)能检测高层次认知目标,有利于特殊才能的发现和个性的培养,能测量应试者的独到见解和对问题的创新探讨。”还能测试“文字表达能力”。(343页)如果要确保“信度高”,全部采用客观性选择题,为了保证“题量广”“知识点密度高”,当然可以设计这样的题目。但是,仅仅在试卷上“勾勾划划”是绝对不可能测出学生的真实的写作能力和思维水平的,更何况试题还有它的“导向功能”――当大家都去训练选择题时,语文学习就可能变成一种死记硬背,而且只是背了一些“标准答案”,这些答案仅仅是命题者的“意见”,连“知识”都算不上,书本上的知识点基本可以算是“客观”的,但是每次测试主观题的“参考答案”却并不是“客观”的,学生记住了,有什么用?。而且,由于在平时训练中过多停顿、返读,养成了不良的阅读习惯,败坏了语文学习的兴趣,学生的文字也变得不流畅了,哪里还谈什么思维的敏捷?

其实,这些不一定要用布卢姆施良方他们的话来证明什么,中国古代科举考试,就是将知识与写作结合起来的。唐代科举考试重“进士”轻“明经”,就是因为进士须考诗赋写作,明经只要熟悉儒家经典。九十年代初,有一些名师迷信“客观型标准化试题”,以为可以解决语文教学中的所有问题,结果是,学生学会了答题,却写不好文章。其实,客观型、标准化、选择题这些名词含义是有不同的,这一些,下一次再谈。【未完待续】

以上信息整理自网络,如需了解最新相关信息请咨询我们的在线客服~

  • 相关阅读