包天仁谈语言测试

包天仁教授（以下简称包）：《基础教育外语教学研究》杂志今年开设了专门针对英语考试的热点访谈栏目，目前已经进行了七期。对前几位专家的专访主要侧重于测试理论层面的问题；从第五期开始，比较侧重于考试的知识、试卷的设计和组织以及测试的反馈，还针对测试的程序和顺序方面进行了探讨。

据我研究，可能是受到国外考试系统的影响，特别是受美国托福（TOEFL）和GRE考试的影响，这几十年来国内外语界一直进行着所谓的“标准化考试”，又受高考和一些其它考试的影响比较重，实际上影响了中考以及后来大学及其它各种类型的考试。目前的问题是，由于所谓的标准化考试的泛滥和误用，造成了几十年来严重的以“题海战术”为主导的应试教育现象。近几年来，教育部发起了以素质教育为理念的课改，特别要求在教法和测试评价方面加大改革力度。目前看来，我国教材开发已经有了很大的变化，但测试没有。现在的测试应付考试的问题越来越严重，不但影响了教育质量还影响了社会稳定。比较严重的问题是对于考试目的的误用，根据考试的不同阶段和目的，考试分为几种类型，如能力测试、进展测试、水平测试和学能测试。但我国最近的几十年来一直在进行一种测试，就是水平选拔测试。主要是以高考的题型和内容，代替了所有的测试。根据这种普遍存在的问题，国家基础教育实验中心外语教育研究中心经过几年的研讨，以及和英国有关研究单位的合作、交流，开发了NEAT测试系统（全国中小学英语学习成绩测试），我想要了解的是这个系统的历史和现状，请柳老师做一下简单的介绍和回顾。

柳正奎老师（以下简称柳）：中心从1997年成立后就一直进行有关测试的研究，每年举办专门针对考试的全国规模研讨会，组织不同层面的专家、学者和教师进行课题研究，组织全国中学生、小学生和大学生英语竞赛，并在赛后进行调查和总结。在多年理论研究和实践的基础上，中心决定开发适合中国中、小学生的英语学习成绩测试。于2003年秋季逐步推出了NEAT测试系统。本测试系统按照国家规定分为八个级别，于2004年1月4日进行了实验测试，共进行了二、五、八级三个级别的测试。其中二级是小学毕业水平，五级是初中毕业水平，八级是高中毕业水平。当时是在全国范围进行的实验测试，规模有十余万人，在全国影响很大。

实验测试为NEAT测试系统提供了良好的反馈和操作经验。参试师生的肯定也给我们研发人员提供了很大信心。在实验测试成功、顺利进行的基础上，中心于2004年5月16日进行了正式测试。正式测试是八个级别同时进行的。参赛人数将近二十万，比实验测试规模有所增加。中心的研发人员也取得了更丰富的数据和经验。从2005年开始，本测试系统进入常规化，测试时间定为每年的一月和五月份。一般在一月的上旬和五月的下旬。每年基本都定为这个时间。到目前为止，中心已经举行了四次测试。参赛人数共计五十余万人。就全国范围来讲规模还不是很大，因为这个测试系统还处于前期探索阶段。但从测试的反馈信息来看，这个测试系统的前景是相当好的，一次比一次规模大，一次比一次的效果好。

按照NEAT测试的规划，下一次测试时间定在2006年的1月8号，星期天。这一次的规模预计比前几次还要大一些，目前仍在统计阶段。已经有各个级别的教研室教研员和我们联系，包括省级、市级、县级不等，也有一些学校教研室或教科院（所）。各级教研人员对这个测试系统非常关注。从这两年实际操作的过程和经验来看，所受到关注的程度越来越高，效果越来越好，规模也越来越大。有很多学生家长也很关注这个测试。我们也从历次测试中不断总结经验，不断改善。从2005年5月份测试以来，我们研发人员在测试手段和技术上作了很大的改革。目前考生在测试后可以直接在网上查询成绩，同时我们又增添了一些新的设备。例如，利用高速扫描仪扫描试卷，然后通过电脑的自动判卷系统进行判卷，提高了测试的效率、准确度和信度。消除了以前统计分析的一些弊端。当然也存在一些问题，在以后的测试当中我们还要进一步改进。

预计下次测试的规模将在30万左右，可能更多。目前我们还不能单纯追求数量和规模，我们现在处于探索和摸索阶段，我们的前提是在保证测试质量的条件下发展规模，逐渐在基础教育外语教学评估方面做出一些探索。我们在做前人没有做过的事情，还需要时间和更多的经验积累。我认为NEAT测试的目的和内容适应了我国基础教育改革的方向，我们做的事情也代表了我国基础教育的发展方向。我们的一些做法能起到一定的导向作用，当然也能给学校、教研部门及时提供一些有价值的反馈信息和参考。对于中小学外语教学能起到很好的促进作用。

包：刚才柳老师介绍的是NEAT 测试的组织，历史以及现状。现在我有个问题想问，你作为NEAT全国考试办公室主任，主要负责测试方面的研究，负责国家基础教育实验中心外语教育研究中心这个全国项目的课题研究和实施。我的问题是，现在全国的中小学中考、高考都在进行课改，使用新课程、新教材，尝试新的教法。大家对频繁的考试和应试的压力和弊病都比较敏感，可以说深恶痛绝，社会的反响和意见也比较大，大家也都比较忌讳考试这个问题。在这种情况下，为什么中心还推出这个考试系统，为什么把这个考试类型的定位定在学习成绩测试的考试类型上，你能不能谈一下这方面的情况?

柳：我们进行中小学英语学习成绩测试目的并不是为了考试而考试，也不是为了强化考试。我们主要是想通过这个测试，作为一种手段和过程，让所有参加测试的学校和师生对考试有一个新的认识。刚才您也谈到了，目前我国中小学英语测试的现状，尤其是在九十年代以来，高考标准化对其他一些考试，比如大学考试，研究生考试造成比较大的负面影响。我们的目的就是要纠正这个偏差。纠正社会对考试的一些错误的认识，纠正高考对考试带来的一些误导。因为中小学英语学习成绩测试是学习成绩测试，从测试理论上讲，它是常模参照测试，这种考试主要是为了比出谁高、谁低。而中小学英语学习成绩测试是学习成绩测试，它不是比较谁比谁好，而是一种“达标考试”，就是说学生能否达到一种标准。我们设定一种标准，比如说英语考试大纲或者现行的英语课程标准，也就是说学生学会了应该学到的内容，达到应该具备的能力。而且这个考试不需排列名次，主要是看学生是否达到了标准，所以不会对学生造成压力，而且也不需要事先进行任何形式的复习，只要在平时的学习当中掌握了应该掌握的知识，具备了应该具备的能力，就能够通过。因而对学生不会产生一种竞争性的压力和限制，不需要学生间进行比较，所以NEAT测试的性质和其它考试是完全不同的。

在我国基础教育阶段存在着中、高考，尤其是高考的错误导向，一考试就排名次。我在中学也教了十几年书，不管是什么考试，期中考试还是期末考试，排名次是很重要的事情。必须排出一、二、三、四来，就连小学考试也要排名次。所以学生一回家家长就要问考了多少分，排到第几名。给学生造成了一些消极的影响。使很多学生怕考试，厌恶考试，甚至恐惧考试。这种现象应该彻底消除。当然不能只靠NEAT考试，将来要把我们的考试向这个方面靠拢，就是把终结性评价和形成性评价结合起来。中考、高考也应该扭转这个局面。不能把学生的分数当成评价学生的唯一标准。课改进行了这么长时间，我们也看到了一些变化，但还应该有更大、更深刻的变化。这虽然需要一个过程，但我们希望这个变化尽早、尽快地实现，这样对学生的素质教育、教学评价改革才能真正有所推进。

包：你刚才谈了NEAT测试的形式和性质。按我的理解是不是这样，这个测试是一种阶段性的测试，每一个学期或学年根据大纲或课标的要求进行。在完成了教学任务以后来检测是否达到了课标要求的能力，所以它是一种阶段性的测试。它的主要目的是看学生在一段时间内是否掌握了必备的知识和内容。也是对教材、教法和教学计划的一种检测，通过反馈看是否完成了即定的目标。通过这个测试再调整教和学。相当于我们进行的期中、期末的测试。但期中、期末测试是在学校或地区内进行的，而NEAT测试是全国规模的。它根据课标的要求，考查学生在这个阶段必备的知识，并不受现行的各种教材的限制和影响，对教材的编写和评价也有一定的反馈作用。所以这个考试是必须的。

以往的种种考试是由学校自己来操作或当地的教研室来进行，但由于受地方区域的各种局限，所以没有NEAT测试这种全国性考试这么高的标准。这个考试本身也是对全国的衡量和评价，它在信度和效度上都比较高一些。中国恰恰缺少的就是这种考试。既然这样，我想问， NEAT考试和中考、高考这种水平选拔考试在内容上、题型上到底有什么区别？是不是相似，是不是在“照葫芦画瓢”？

柳：从性质上讲，中小学英语学习成绩测试和中、高考是两种性质完全不同的考试。从理论上讲，中小学英语学习成绩测试是学习成绩测试，而高考是选拔性考试。它们参照的标准不同，题型上也不一样。例如说高考，它对难度和区分度都有特定的要求，从整体上说难和易有一定比例，但是太简单没有区分度的试题就绝对不能要。学生都应该会的试题也不一定考。这是一个前提，NEAT测试考查的是知识面，在难度和区分度上没有这种特定的标准。中小学英语学习成绩测试在小学阶段标准是什么呢？根据大纲，在某一个年级阶段内所涵括的语法项目、词汇，它所应该要求的标准，不管难易，在考查面范围内的知识内容都考。

当然，两种考试在题型方面有些是相同的。比如都有选择填空、阅读理解等题型，形式上一样，但在难度上和区分度上有差别。另外，主客观题的比例上与高考题大不一样，NEAT测试中主观题占了70%左右，客观题只占30%。每次考完之后，我们会征求考生的意见，及时得到了一些反馈信息。在题型方面我们也设有问卷来调查学生的想法，通过各种方式来征求师生的意见。根据师生的反馈信息来设计题型，比如1月9日在初中试题中增加了一些主观题，如句型转换等题型，而且我们的NEAT测试一至八级都有口语考试，听力试题的题型也与高考题型不一样。阅读理解中的大部分题也都是主观题。使用了简答、填空等题型。完形填空我们都不采用多项选择题，而是给词填空或者完全的自由填空。

包：我先打断一下，问一个问题。NEAT测试采用这么多的主观题，与中考、高考的确不同。而现在基层学校，很多老师辅导学生就是初中学生就是为了中考，高中就是为了高考，这是他们的主要目的。既然中考、高考采取什么样的题型，什么样的试卷结构，他们就想怎么样练习、复习。那中心的成绩测试为什么不采用和中考、高考一样的试题结构？

柳：高考题型尤其是在前几年，客观题能占到80%，高考的主观题型只有两项：改错和作文。为什么我们NEAT测试尽量采用主观题型而不选择客观题型，与高考不同？一个是因为高考本身过多的选择题，这是一种误导，过多的选择题带给学生的不是实际能力，而是“猜测心理和机会主义”。同时，试卷中过多地采用选择题是缺乏信度和效度的，这反映了试卷设计的不科学。另外，NEAT测试的考试性质和高考不同。NEAT测试是一种阶段性的成绩测试，而它的性质就决定了它的考试题型。从题型选择本身来讲，我们实际上并不完全反对采用客观题型，并不是说客观题型就应该完全抛弃。它可以采用，但是得有个限度，超过这个限度，选择题泛滥，就会产生一种负面影响。就像现在的中、高考，在社会上产生了很大的负面效应。客观题型以多项选择题为主，从理论上讲能提高测试的信度，但过多就失去了效度。中心通过近年来在基础教育领域的实践，尤其是针对高考试题的研究中，已经看到了这个弊病。搞题海战术使学生和老师完全处于一种疲于应付的状态，在社会上产生了非常不好的负面效果。

包：我还有一点问题想问你，NEAT测试采用这么多的主观题，目前看来在全国考试当中是主观题比例最多的一个，甚至比全国中学生英语能力竞赛的主观题还要多10%左右，那么如何保证它的信度和效度？面对这么多主观题怎么来进行评卷的技术性操作？这不仅是理论上的问题，还有技术上的问题，你们是怎么处理的？

柳：我们在这方面做了很多研究和实践，做了很多大胆有益的尝试。我们具体采用的方式是把主观题型客观化。怎么客观化呢？我们引入了一些比较现代的科学技术，引用了一些电脑软件来操作。比如说主观题由老师批卷，批完以后在分数录入的时候，先把成绩录进电脑里，通过电子邮件发送到全国考试办公室。我们在5月22日的测试中，整个主观题和客观题都是用答题卡的形式，应用涂卡的形式，客观题是选ABCD,主观题不是选ABCD，而是用“1”和“0”两个选项。也就是说，对主观性试题进行了客观化处理，因此试题评卷处理的信度比较高。当然，这里还存在评卷人员因素的影响，也就是教师的素质问题，这里面主要包括评卷教师的业务水平和职业道德两个方面。如果地方各级参试单位都遵循全国考试办公室的章程来操作，测试的信度还是可以保证的。

包：据我所知，中心研究NEAT测试系统已经有六、七年的时间了，目前也在实施全国性的实验和调查，经过了与剑桥大学考试中心的长时间的接触和合作，每年都进行几次交流，中心每年都组织研发人员到英国进行研讨。剑桥大学考试中心对这个项目也很重视，提供了一些理论和技术上的建议和支持。NEAT测试也是一个由教育部批准设立的全国性科研项目，目的是想通过这个项目来推进课改这个大课题以及教学方法的改革。我国几十年来的英语考试都因为以高考和中考为唯一考试形式代替其他类型的考试形式，形成了单一的局面。现在看来有很多师生愿意参加NEAT测试的研究和实践，说明它有一个很好的发展前景。我的问题是，作为一种考试，肯定要给出成绩，这个成绩有没有一定的权威性？师生来参加考试会得到什么？

柳：总体来讲，我非常推崇这种说法，叫做存在决定意识。我们从一开始研究测试到现在实际上已经十几年的时间，实践方面也已经进行了四次测试，规模也一次比一次有所提高，可以说积累了很多实践经验。至于说权威性，无论是家长还是教研员也有问起过这个问题：这个测试考完后有什么用？它和中、高考有什么关系？首先，从我们的运作过程来谈起，让大家有一个认识。我们做的规模越来越大，质量越来越高，达到一定的层次之后，地方的教研部门和教育行政部门都会对它有一个认可。这方面我们虽不能去盲目的推崇，但只要我们保证一定的层次和规模的话，随着人们对它认可度的提高，可行性会越来越高，它的权威性也会提升。在现在的实践当中，有些地区虽没有硬性的规定，但是从学校和家长来说对它还是比较认可的。学生拿到证书后，有的学校入学时也要看这个证书。虽然我们不能从正面来提倡这种做法，因为这种做法也许会产生负面效应，但从这个角度来讲，还是说明NEAT测试已经有了一定的可信度，人们比较相信它。

包：是不是可以这么说，NEAT测试是一种阶段性的考试，它是介于最终的考试，即中考或高考过程当中的一个阶段或者说必经的一个阶段。我们平常的教学当中不能只是采用中考、高考这种题型，或者说以这种考试来进行检测，来进行评价，这种做法是不科学的。就如同孔德惠老师讲的，参加跳高[lzk1] 比赛一开始就让选手跳最高的那一栏肯定不行的，应该一点点地跳，一点点的提高，在这个过程中还需要训练。考试就如同这个过程，NEAT测试可以被看作是教学过程中期末考试的一种代替，各地可以用它来替代期中、期末考试。期末考试的试题用全国性的试卷来统一考查，评卷的信度、效度会更高一些。我的问题是既然它是阶段性的考试，那么它与水平考试有什么不同？

柳：您实际上是提了两个问题。第一个，NEAT测试与期中、期末考试的关系如何？NEAT测试与学校进行的期中、期末考试很相像，它是一种阶段性考试，阶段性考试应该是针对不同的阶段进行的考试，NEAT考试类似于期末考试，当然我们可以把它做成期末考试，我们完全有可能把它做成适合某个地区、某个学校、某个年级的一个阶段性的、学年度的期末考试。但是目前还存在一个问题，目前我国中小学英语教材版本繁多，内容和水平参差不齐，如果要掌握某个地区的教材需要做很多工作，也要了解某个地区学生的学习状况，因地制宜才能找到切入点，才能有可行性。第二个问题是阶段性测试与水平测试的异同问题。举例来说，英国的雅思考试（IELTS）就是水平测试。一般来讲水平测试是用来比高、低的，托福考试也是这样。从某种程度上讲我国的高考也是一种水平测试，是一种对初、高中阶段的大的水平测试。我认为雅思从某种程度是说是尺度参照测试，英美国家大学里某个阶段的雅思录取参考分是固定的，所以，从某种角度上说它是一种尺度参照测试，中小学英语学习成绩测试也是尺度参照测试，但它不是水平测试。常模参照测试和尺度参照测试属于同一范畴，它是根据测试的参考对象不同对测试进行分类；而其它的提法，诸如选拔性测试、水平测试、进展性测试、学习成绩测试、阶段性测试等等同属一个范畴，它们是根据测试目的不同进行分类的。所以，从这方面来对考试分类，我们可以把高考叫做“常模参照选拔性考试”，把NEAT测试叫做“尺度参照学习成绩测试”。

包：但是同时来讲，水平测试像雅思之类，考查的是能否达到用英语来解决实际问题，来申请学校，来生存的英语水平。可以说它是一种把英语作为特殊目的的这种考试。而NEAT考试之所以被称作成绩测试是因为它要考查学生是否掌握了要求掌握的知识和技能，并不是测试某种实际做事的本领，所以两者是不同性质的考试。它们在内容、目的和题型方面都不一样，有明显的区分。现在我有个问题，既然有那么多种测试，看来要根据不同的目的、不同的阶段进行不同类型的考试。但实际上现在我们平常进行的测试，比如说每节课的课堂训练，总是要求学生多参与，比如课课练、单元目标练习包括那些基本的专项和单项练习，我个人认为属于Progress Test,它们的形式不固定、内容不固定，时间也不固定，是随时随地都可以进行的。但是现在我迷惑的是现在几亿中小学生普遍采用的题型和内容，不但没有采用Progress Test的形式和内容，而是跨过了成绩测试，完全是用中考和高考的题型和题量。这种情况非常严重。我们说NEAT测试能不能让老师和学生逐渐摆脱几十年来高考的所谓的标准化的题海的训练，是不是在这方面能起到一定好的导向。在这方面我们能不能进一步的探明？

柳：我们的初衷和出发点是我们想在这方面所做一些事情。我们的目的不是为了考试而考试，而是要彻底改变我们国家中小学基础教育阶段对考试的认识，我们想在这方面起到一些好的示范作用。但是“冰冻三尺，非一日之寒”，这个现象也不是一天、两天能够解决的问题，需要一个过程。需要教师和学生对我们所做的努力有了一定的认识，教师们能对他们平时教学中所作所为产生一些反思，这样我们的目的就达到了。这个导向，一方面要彻底改变中、小学题海战术这个现状；另外，通过我们的测试，我们还要在理论方面进行引导，使教育工作者真正认识到理论联系实际的重要性。我们为什么要这么做？我们就是要通过这些尝试，宣传我们理念，提高基础教育工作者的整体素质，提高他们在测试、评估理论方面的认识和实践能力。

包：我还有一点要说的就是，现在NEAT测试如何操作？如何报名，又怎样认证？据我所知，NEAT测试是由各地教研部门具体操作的。如果教研部门不给授权，个人又不能单独报名，那么能不能以学校为单位进行报名呢？你能不能谈谈如何报名参加，如何操作，以及收费情况？

柳：我们现在原则上是以各省、地、市、县、区的教研部门、也包括教科院、教科所这些单位组织报名，学校也可以单独报名。通过各种宣传积极发动各个层面参与。学校可以咨询当地的教研部门，如果当地教研部门不参加，学校就可以发一个书面申请直接向NEAT全国考试办公室报名参加。全国考试办公室和各省、地、市县级教研部门均取得联系，如果各级教研部门统一组织学校进行测试，会相应成立各级考试办公室，在全国考试办公室的指导下进行测试。全国考试办公室主要从操作方式上给予指导和帮助。报名之后，各级考试办公室可以通过电子邮件或者传真等方式，把报名表交给全国考试办公室，然后缴纳参试费。全国考试办公室对每个学生只收三元钱。这三元钱包括考试所有的费用，如试卷、证书和考务管理。那么各级考试办公室可以根据实际情况，在具体操作的时候还要根据当地的物价，酌情加收部分费用，因为他们要承担考试的监考、评卷和学校考试管理方面的一些费用。下一次的测试时间是2006年1月8日，感兴趣的单位可以和NEAT全国考试办公室取得联系，电话为010-88375129，也可以登录到“中小学英语学习成绩测试网”查询详细信息，网址是www.neat.net.cn。

包：现在我想全国目前有约两亿学生在学习英语。NEAT 考试有着广阔的发展前景。我想问一下你对NEAT 的前景有什么看法？

柳：访谈一开始时我也简单地讲到这个问题了，我们从一开始操作时的十几万考生到目前的近三十万，是在逐步而稳定、持续地发展。我们接下来的目标是达到三十万到五十万，在不久的将来能达到一百万以上。

包：NEAT考试是否在逐步的改革？包括题型等。考生和教师是否需要做考试前的准备？全国考试办公室是否提供样题？这些具体问题你能不能介绍一下？

柳：很多竞赛单位在报名的时候都咨询这个问题。为了给大家提供方便，我们可以把考过的试题做成试题集给大家在题型方面提供参考。我们也会在中国英语外语教学研究网、中小学英语学习成绩测试网和《基础教育外语教学研究》杂志等媒体上公布已考过的NEAT试题、对试题进行分析的考后报告和反馈情况。但我们不提倡任何形式的辅导，没有必要。前面也讲过，NEAT测试主要是考查学生的知识和能力达到了什么水平，是否达到了学习的既定目标。学生只要掌握好平时课本上的内容就能通过考试。

包：感谢你接受采访，你们所做的工作是一种艰苦的尝试，但是将会使我国师生大大受益，使我国的外语教育课改取得长足的进展。

柳：谢谢您的支持。

受访人简介：

柳正奎，1953年出生，现任国家基础教育实验中心外语教育研究中心中小学英语学习成绩测试（NEAT）全国考试办公室主任。1976年毕业于东北师范大学化学系，1988年毕业于上海外国语学院英语二系，获英语语言文学学士学位。1976年至1992年在吉林省通化市中学任教。1990年至1992年任《英语辅导报》初三版兼职编辑。1997年调入英语辅导报社工作。现任前先后担任《英语考试向导》初中版责任编辑、英语辅导报社咨询部主任和网络部主任。

1990年合著《中学英语写作向导》，2001年编著《全国中学生英语能力竞赛指导手册》（初三版），并为《英语辅导报》和《英语通》的不同版本撰写过许多文章。在2004年和2005年召开的国际英语教师协会中国分会第二届、第三届国际年会上宣读了题为《中小学英语学习成绩测试简介》和《语言测试中的几个理论与实践问题》的论文。

(注：此文发表在国家基础教育实验中心外语教育研究中心的核心刊物《基础教育外语教学研究》2005年第8期上。）

liujj3652 · 发表于 2014-6-23 22:16:51

谢谢楼主的分享，

		自动登录	找回密码
密码			注册

包天仁谈语言测试

浏览过的版块

Ta最近发表

常见问题

如何合作

手机访问网站

联系我们