论文部分内容阅读
一、语言测试的必要性
语言测试在语言教学中处于中心地位。它为语言教学提供了目标,并对教师和学生成功实现进行监控。语言测试对语言的讲授和学习提供了试验和调查的方法学。题目设计不好教师不能正确了解教学,学生也会被引向歧途。因此,我们主张的是科学的符合教学原理的测试,它有诊断和指导教学的作用,可以增加学生1的学习动力,使教师和学生有阶段感、程
度感和成功感。
语言测试可以用来选拔人才。人才的要素是文化素质,文化素质主要指思想深度获取知识的技能。思想深度要靠语言来表达,获取知识要靠语言这一媒介来进行。语言水平越高,获取知识就越精确,获取知识的渠道就越多,思想也就越丰富。因此,升学、招工和评职称都常用语言测试。语言测试的影响如此之大,作用如此之突出,值得给予比以往更多的重视和研究。
二、语言测试的类型
实际上,不存在最好的测试或是最好的测试技巧,一项测试被证明能理想地达到某一种教学目的,对另一个教学目的很可能根本毫无用处,一种技巧在一个教学状态下行之有效,也许对另一个教学状态完全不起作用。因此,测试人首先必须清楚地了解任何一个教学状态下测试的目的。由此可见,不同的教学目的需要不同的类型的测试与之相适应。
接用途分类,至少可以分出四类语言测试:水平 (proficiency test成绩测试 (achievement test)、潜能 (或素质)测试 (aptitude test)以及诊断测试 (diagnostic test)。
成绩测试是回顾从前。水平测试主要是展望未来,同时也注意过去。潜能测试只是预见将来。诊断测试检查以往以图补救今后。由此可见,设计好一套试题,使之真正达到预期目的并不那么简单,明确测试的目的或用途仅仅是第一步。要保证所设计的题目确实能够达到我们的目的,还要在具体设计中下很多功夫。
三、设计试卷的标准
请看以下试题:
(1) Is there rice in the pan?
A. some B. any C. a D. those
(2) When I met Ted yesterday, it was the first time I him since Christmas.
A. saw B. have seen C. had seen D. have been seeing
( 3 ) I think someone in this class will help me, ?
A. do I B. won’t they C. don’t D. is not it
在 (1)中,设计者的意图是B为正确答案,但是,学生选择A就一定锚吗?由于题目本身没有把语境交待清楚,A也不能算错。在不少情况下 (比如说话人相信还有米饭),选择 A 也是成立的。而 (2)的目的是引导学生去选择B或D,而 C是正确答案。学习好的学生知道,见到 since时动词时态一般为 have done或have been done所以容易选择B或D。学习不太好的学生可能从来也不知道与since连用的动词时态一般为 have,反倒选了正确答案c。这样的题目使粗心大意、不加思考的学生答对了,细心分析的学生反而答错,会大大降低测量的信度和区分度。题目 (3)从理论上讲,附加疑问句要否定主句,所以 c 是正确:答案。但同样也可以否定宾语从句,再加上someone是不定指的,B项也说的过去。不过,若按说话习惯来讲,四项选择都很别扭,应该说都不正确。答错这题的学生可能总体语言水平相当好,答对的学生也许是碰对的,而实际水平相当差。
因此要设计好一套题目就需要有一定的标准,其主要包括测试的效度(validity)、信度(reliability)、区分度(discrimination)、实用度(practicality)及产生的影响 (backwash effect)。
1、效度 效度是看是否达到测试的目的。测试什么就要包括什么测试项目,不涉及无关内容。一套题,起码要有表面效度 (face validity),就是首先让人看上去是合适的,具有表面效度的测试容易引起应试人的兴趣。最重要的还是内容效度 (content validity),应该考查的语言要素和技能都要有所體现。
2、信度 信度是看学生的分数是否稳定,如果分数忽高忽低就说明信度不高。影响信度的因素很多,例如,举行测验的时间和环境。早晨测试可能比晚上进行的测试得分高一些;在安静、舒适的环境进行的测试可能比又脏又乱又吵的环境进行的测试得分高一些;使用录音机的测试,分数变化会更大;录音是否清楚,耳机工作是否正常,周围有没有噪音等等。
学生的个人因素也很重要,情绪高低,是否疲倦,有无头痛发烧等。
3、区分度 测试就是要比较,没有比较看不出区别。如果全体学生的分数相近,说明测试缺乏区分性,题目的难易范围不广,难易程度分布不细。题目一定要由易到难,容易的题目是为了使学生平静下来,消除紧张情绪,树立信心,然后一步步地难起来。如果突然加大难度,就会一下子难倒许多学生,出现分数集中现象,逐步提高难度,每道题只难住几人
人,分数就会分散很广,显示出考生之间的细微差别。
4、实用性 试题要便于使用,试卷要印得清楚醒目,避免拼写错误、遗漏和涂改。测验所需时间要估计恰当。题目的措辞要清楚易懂,少用长句,少用专用术语。无论如何,不要在题目措辞上耍“花招”,让学生去猜测或理解错误。如果怕题目说不清楚,最好能举例说明,让学生起码知道题目的要求。
四、结束语
当前语言测试中存在很多不足,对于语言测试者来说应感到研究语言测试的紧迫感、重要性以及盲目设计试题的弊端,在坚持题目设计标准的基础上,力求在词汇、语法、听力、口语、写作等方面做到设计科学,符合教育原理,达到测试目的。每次测试后,要计算分数分布情况,划出分布曲线,评估一下测验分数是否正常,并分析原因,在可能和必要的情况
下,计算出测验的效度、信度和项目的区分度。计算出各种参数后,还要检查学生的错误答案,经常收集学生错误的教师,一定能设计出高明的干扰项。教师还应该注意保存自己用过的试卷,这是研究测试的宝贵素材。这些工作如果做好了,不仅在将来设计题目时节省时问,而且会帮助其明确教学的重点,减少盲目性,有利于提高教学质量。
语言测试在语言教学中处于中心地位。它为语言教学提供了目标,并对教师和学生成功实现进行监控。语言测试对语言的讲授和学习提供了试验和调查的方法学。题目设计不好教师不能正确了解教学,学生也会被引向歧途。因此,我们主张的是科学的符合教学原理的测试,它有诊断和指导教学的作用,可以增加学生1的学习动力,使教师和学生有阶段感、程
度感和成功感。
语言测试可以用来选拔人才。人才的要素是文化素质,文化素质主要指思想深度获取知识的技能。思想深度要靠语言来表达,获取知识要靠语言这一媒介来进行。语言水平越高,获取知识就越精确,获取知识的渠道就越多,思想也就越丰富。因此,升学、招工和评职称都常用语言测试。语言测试的影响如此之大,作用如此之突出,值得给予比以往更多的重视和研究。
二、语言测试的类型
实际上,不存在最好的测试或是最好的测试技巧,一项测试被证明能理想地达到某一种教学目的,对另一个教学目的很可能根本毫无用处,一种技巧在一个教学状态下行之有效,也许对另一个教学状态完全不起作用。因此,测试人首先必须清楚地了解任何一个教学状态下测试的目的。由此可见,不同的教学目的需要不同的类型的测试与之相适应。
接用途分类,至少可以分出四类语言测试:水平 (proficiency test成绩测试 (achievement test)、潜能 (或素质)测试 (aptitude test)以及诊断测试 (diagnostic test)。
成绩测试是回顾从前。水平测试主要是展望未来,同时也注意过去。潜能测试只是预见将来。诊断测试检查以往以图补救今后。由此可见,设计好一套试题,使之真正达到预期目的并不那么简单,明确测试的目的或用途仅仅是第一步。要保证所设计的题目确实能够达到我们的目的,还要在具体设计中下很多功夫。
三、设计试卷的标准
请看以下试题:
(1) Is there rice in the pan?
A. some B. any C. a D. those
(2) When I met Ted yesterday, it was the first time I him since Christmas.
A. saw B. have seen C. had seen D. have been seeing
( 3 ) I think someone in this class will help me, ?
A. do I B. won’t they C. don’t D. is not it
在 (1)中,设计者的意图是B为正确答案,但是,学生选择A就一定锚吗?由于题目本身没有把语境交待清楚,A也不能算错。在不少情况下 (比如说话人相信还有米饭),选择 A 也是成立的。而 (2)的目的是引导学生去选择B或D,而 C是正确答案。学习好的学生知道,见到 since时动词时态一般为 have done或have been done所以容易选择B或D。学习不太好的学生可能从来也不知道与since连用的动词时态一般为 have,反倒选了正确答案c。这样的题目使粗心大意、不加思考的学生答对了,细心分析的学生反而答错,会大大降低测量的信度和区分度。题目 (3)从理论上讲,附加疑问句要否定主句,所以 c 是正确:答案。但同样也可以否定宾语从句,再加上someone是不定指的,B项也说的过去。不过,若按说话习惯来讲,四项选择都很别扭,应该说都不正确。答错这题的学生可能总体语言水平相当好,答对的学生也许是碰对的,而实际水平相当差。
因此要设计好一套题目就需要有一定的标准,其主要包括测试的效度(validity)、信度(reliability)、区分度(discrimination)、实用度(practicality)及产生的影响 (backwash effect)。
1、效度 效度是看是否达到测试的目的。测试什么就要包括什么测试项目,不涉及无关内容。一套题,起码要有表面效度 (face validity),就是首先让人看上去是合适的,具有表面效度的测试容易引起应试人的兴趣。最重要的还是内容效度 (content validity),应该考查的语言要素和技能都要有所體现。
2、信度 信度是看学生的分数是否稳定,如果分数忽高忽低就说明信度不高。影响信度的因素很多,例如,举行测验的时间和环境。早晨测试可能比晚上进行的测试得分高一些;在安静、舒适的环境进行的测试可能比又脏又乱又吵的环境进行的测试得分高一些;使用录音机的测试,分数变化会更大;录音是否清楚,耳机工作是否正常,周围有没有噪音等等。
学生的个人因素也很重要,情绪高低,是否疲倦,有无头痛发烧等。
3、区分度 测试就是要比较,没有比较看不出区别。如果全体学生的分数相近,说明测试缺乏区分性,题目的难易范围不广,难易程度分布不细。题目一定要由易到难,容易的题目是为了使学生平静下来,消除紧张情绪,树立信心,然后一步步地难起来。如果突然加大难度,就会一下子难倒许多学生,出现分数集中现象,逐步提高难度,每道题只难住几人
人,分数就会分散很广,显示出考生之间的细微差别。
4、实用性 试题要便于使用,试卷要印得清楚醒目,避免拼写错误、遗漏和涂改。测验所需时间要估计恰当。题目的措辞要清楚易懂,少用长句,少用专用术语。无论如何,不要在题目措辞上耍“花招”,让学生去猜测或理解错误。如果怕题目说不清楚,最好能举例说明,让学生起码知道题目的要求。
四、结束语
当前语言测试中存在很多不足,对于语言测试者来说应感到研究语言测试的紧迫感、重要性以及盲目设计试题的弊端,在坚持题目设计标准的基础上,力求在词汇、语法、听力、口语、写作等方面做到设计科学,符合教育原理,达到测试目的。每次测试后,要计算分数分布情况,划出分布曲线,评估一下测验分数是否正常,并分析原因,在可能和必要的情况
下,计算出测验的效度、信度和项目的区分度。计算出各种参数后,还要检查学生的错误答案,经常收集学生错误的教师,一定能设计出高明的干扰项。教师还应该注意保存自己用过的试卷,这是研究测试的宝贵素材。这些工作如果做好了,不仅在将来设计题目时节省时问,而且会帮助其明确教学的重点,减少盲目性,有利于提高教学质量。