基于《量表》的英语口语测试开发及效度验证研究
基于量表的口语英语测试开发及效度检验研究
麒麟一地爱影
摘要:中国英语水平水平量表(以下简称量表)为我国各阶段教育中的英语教学、学习与评估提供了理论指导。基于量表口语分量表的口语表达能力描述框架及3至6级相应分量表的描述符,开发了西部某大学非英语专业新生入学后英语口语测试及评分标准,并基于Weir的社会认知效度验证理论进行了多项效度研究。研究结果表明:量表的口语能力描述符对于口语测试能力构念的定义和评分标准的制定有良好的指导作用;基于量表开发的口语测试能够准确测评学生的口语能力;基于测试的口语评估对学生后续英语课程的学业成绩有良好的预测作用。
关键词:中国英语水平量表;口语测试;口语评分标准;社会认知效度验证框架
介绍
《中国英语水平等级量表》(以下简称量表)为我国英语测评与教学提供了统一的标准和方法指导[1]。自量表发布以来,已有不少学者从不同角度对其进行了研究,包括其理论基础与效度论证、与国际语言能力评估标准及大型考试的对接,以及其在英语学习、教学与评估中的应用研究[2-5]。总体来看,对量表的实践研究相对较少,且主要集中在阅读、写作和听力技能方面,对口语、语用、组织、口笔译等技能的研究更是凤毛麟角[5]。
随着中外合作办学项目的增多,全英文授课(以英语为教学语言)的课程越来越普遍,此类课程对学生的英语水平,尤其是口语有效沟通能力提出了更高的要求,因此了解新生的英语口语对于课程设置、班级安排以及个性化课外辅导都至关重要。开发和实施入学后口语测试,不仅可以有效指导教学和学习,还可以监测不同年份入学学生的口语能力变化,从而有针对性地调整课程设置和教学内容。基于此,本研究以全英文授课的中外合作项目非英语专业新生为研究对象,基于Weir的社会认知效度验证理论和量表口语分量表开发入学后英语口语测试,以期探索以量表为指导的口语测评发展的路径,并为后续研究提供参考和借鉴。
1.文献综述
1.1口语测试发展研究
学术界对口语测试及评分标准发展的研究并不缺乏。早期的研究多集中于“考什么”的宏观探索,如杨惠中等提出大学英语口语测试应体现口语交际特点,创设真实的交际情景和语境,体现语言互动性,让考生展示自己的语言能力[6]。此外,“如何评价”也是学者们关注的关键问题,如吕长虹等探讨了不同类型的评分标准的效果,发现总体评分、分解评分、任务型评分的结果并无实质性差异,但认为总体评分标准更适合大规模口语测试[7]。但国内对评分标准的实证研究较少,且多以“能做”的表述为主,很少体现口语的典型特征[8]。随着研究的深入,口语测试中具体能力构念的界定及相关评分标准的制定成为关注焦点。 以互动能力为例,张琳、金岩提出了涵盖语言知识、互动技能、口语表达策略、口语互动策略等内容的互动能力结构框架[9]。在数字化转型和技术赋能的背景下,口语机考受到广泛关注,包括机考评分系统的信度和效度验证、机器评分与人工评分结果的对比等[10-11]。
除了围绕口语测试本身开展的研究之外,各类英语语言研究成果也为口语测试的发展和实践提供了基础和思路。国际上,自《欧洲语言共同参考框架》(CEFR)发布以来,出现了一系列基于CEFR的口语测试效度验证研究以及现有口语测试与CEFR的衔接研究。例如,Green尝试将学术英语口语测试与CEFR联系起来,发现不同语境下对CEFR分数的解读有所不同[12]。在国内,自量表颁布以来,基于量表的英语口语研究逐渐兴起,可分为三类。一是针对量表本身的口语分量表开展的研究,例如,王华对口语成分量表的效度进行验证,发现一些相邻级别描述符之间的区分不够明显[13];解炜和金燕探究了口语表达典型活动与语言特征量表的理论基础,提出了此类量表的构建方法与步骤[14]; 金燕和揭伟在另一项研究中指出,口语量表的后效应研究应注重其在英语口语教学与学习评价中的应用,特别是探讨其对英语学习改革、教学改革、课程设置、教材研制和考试发展的指导作用[15]。二是《量表》与其他语言框架中的口语测试及口语能力的关联研究,如大学英语四级口语和校本综合口语测试与《量表》的关联[16-17]、《量表》在口语技能层面与其他语言框架的关联[18]等,从多方面论证《量表》的科学性和有效性。三是《量表》对口语测试研制指导作用的相关研究,如陈信仁和杨昆等探讨了如何将量表的五级语用能力描述词纳入口语测试和评价标准[19]。 但本研究仅局限于口语用能力的探讨,该量表对交际互动式口语测试的开发以及评分标准的制定有何指导作用,还有待进一步研究。
口语测试开发完成后,对测试及其评分标准的效度进行验证是保证测试质量的重要环节。现有的研究大多是对大规模高风险测试效度的实证研究。例如,有的研究分别探讨了雅思口语测试的结构效度和预测效度[20-21];也有的研究横向比较了雅思、托福和英语六级口语测试的效度,认为三者均具有良好的效度[22]。与大规模考试相比,校本口语测试的开发在过程规范化、论证严谨性方面存在不足,更有必要对此类测试进行多维度的效度验证,以检验其科学性和有效性。而要实现这一目标,需要引入可靠的效度验证框架作为支撑。
2. 测试验证框架
效度是指测试是否真正测评了它所要测评的内容[23]。为了更好地指导测试开发和效度研究,Weir在其著作《语言测试与验证:一种基于证据的方法》中提出了社会认知效度验证框架,全面、严格地论证了语言测试的效度。该框架强调语言测试测评的构念是学生的认知能力,包括语言知识、内容知识和交际策略等;提出测试效度是指测试分数准确代表学生语言能力的程度。效度是一个相对概念,效度的程度不一,需要多层次的证据支持。在进行效度验证时,核心应是学生对测试问题的回答,从两个方面收集和论证证据:早期效度(侧重于学生的表现)和晚期效度(侧重于分数解释和测试使用)[23]43-47。该框架为测试开发、效度证据的收集和论证提供了详细且具有操作性的理论指导[24]。 随后,一些学者基于此框架对口语、写作、阅读、听力四项技能的测评发展与效度研究进行了实践与研究,其中Lynda Taylor主编的《口语测试:第二语言口语测试的研究与实践》探讨了剑桥口语测试的发展与效度研究。
按照该框架,前测效度包括测试前的情境效度和认知效度,后测效度包括测试后的评分效度、结果效度和效标关联效度[23]43。情境效度考察影响学生表现的各种情境特征,分为三类:1)任务设计,包括答题模式、任务顺序、准备和答题时间等;2)测试实施,包括测试环境、实施过程等;3)任务要求,包括与语言能力相关的要求英语口语等级划分标准,如交际模式、话语模式、话题熟悉度等,也包括与对话者特征相关的要求,如语速、口音、参与者人数、性别等。[23]46。认知效度关注学生的答题过程而非测试结果,其核心是测试活动在多大程度上反映了真实的语言应用,包括学生在回答问题过程中所使用的策略、能力和答题条件等。 背景效度的证据可以通过问卷调查来收集,而认知效度的证据可以通过专家判断、学生后测问卷或访谈来收集[23] 234。
Weir认为在书面和口头表达能力的测量中,评分效度尤为重要[23]48。影响评分效度的因素包括评分标准与量表、评分流程、评分条件、评分员特点、评分员培训、分数监控、评分和分数报告[25]198。评分效度可以通过评分员信度和考试成绩的数据分析(如均值分析、方差分析、经典测试理论CTT等)来探究[23]199。预测效度是效标关联效度的一种,指不同测试之间的相关性,即当同一组学生间隔较长时间参加两次测试时,前一次测试的分数是否可以预测下一次测试的分数[25]298。相关性需要通过分数等值来实现,前提是两次测试目的和测试组基本相同,测试的能力也基本相同; 等价性一般利用项目反应理论(IRT)或回归分析来实现,也可以通过量表对接来实现[25]318。
综上所述,虽然近年来量表在测试开发中的应用有所增多,但实证研究并不多,尤其是针对口语测试和评分标准的开发。本文将探讨如何基于量表的口语表达能力描述框架和相关口语口语表,界定口语的水平范围和测试涵盖的口语能力,开发口语测试和评分标准,并参考Weir的社会认知效度框架对测试的效度进行全面验证。
2. 研究设计
1.研究方法与步骤
基于以上研究问题,研究设计分为三个步骤。首先,基于文献和教学情境,确定口语测试拟对接的《量表》的层级范围。其次,基于《量表》的口语能力描述框架,界定测试涵盖的口语能力,并根据口语分量表对应层级的描述性语言确定话题范围和评分标准。最后,基于社会-认知效度验证框架,收集预测试和正式测试的相关数据,探讨《量表》在口语测试题目和评分标准制定中的指导作用;再收集同一组学生一段时间后的两次口语能力测评数据作为学校标准,验证入学后口语测试的结果是否能真实反映和预测学生的口语水平。
2. 研究对象
本研究以国内某双一流大学中英合作办学项目2021级新生为研究对象,这些学生来自全国16个省市,共计534人,需要接受两年小班高频次的学术英语学习。
对象的筛选采用分层抽样的原则,避免抽样集中或遗漏具有某些特征的学生[26]。所需样本量根据2021级全体新生高考题型和分数区间分布情况确定。实际筛选学生112人,占录取总人数(534人)的20.97%,占收集到的有效信息总数(467人)的23.98%。学生分布情况见表1。这种抽样方法既保证了样本的广泛代表性,又保证了样本分布到各个小班,方便老师在课堂上观察样本。
三、基于量表的口语测试的开发与实施
基于CEFR开发的测试是指在设计之初就以CEFR为标准来定义测试对象的语言能力等级,根据测试结果可以推断出测试对象的语言能力CEFR等级,并通过“能做到”这个描述词来描述测试对象对测试任务的掌握程度[4]。基于此定义,本研究确定了口语测试需要对接的量表层级,定义了测试所涵盖的能力,并根据量表制定了评分标准,以此来评估学生口语能力的量表层级,以供录取参考。
1. 确定要连接的秤的级别
确定测试所对应的级别,是开发基于量表的测试的第一步。有研究将高中英语课程标准的学术质量级别要求与量表的级别描述进行了对比,发现高中英语学术质量级别1级和2级分别与量表3级和4级的要求比较一致[27];而本科新生入学时的语言水平大多在量表4级和5级之间[28]。考虑到语言学习背景和地域因素的差异,部分学生的语言水平可能高于或低于平均水平,因此本次口语测试所对应的量表级别范围确定为3级至6级四个级别。
2. 明确考试涵盖的口语技能
按照Bachman的交际语言能力理论,语言能力包括语言知识和策略能力[29]。基于此,口语成分量表提出口语能力构念具体表现为说话人恰当地运用语言知识、能力和交际策略有效完成口语交际任务的能力[28]117。相应地,口语表达量表包括口语表达能力和口语表达策略两部分。
按照交际功能对口语活动进行分类,形成相应的口语表达能力描述框架及分量表,分别为口语描述、口语叙述、口语讲解、口语指导、口语论证、口语互动。[28]118其中,口语指导能力与实验程序、操作步骤等指导相关,在高中语言学习情境中尚未完全设立,这一维度不能得到很好的体现。另外,语言测试应反映学生在现实生活中的语言任务,与学习需求、学习目的、学习情境相关。[30]基于以上分析,以《量表》口语表达能力框架为基础,综合考虑高中阶段及高考后学生的英语表达能力,明确了测试应涵盖的口语能力。 从口语描述、叙述、解释、议论和互动五个分量表的三至六个级别中,提炼出测试话题范围,包括个人经历、兴趣爱好、日常生活及场景、学习生活、人生选择和社会热点等,如表2所示,并据此制定了A、B两组测试题。
口语表达策略包括表达前和表达过程中使用的沟通策略英语口语等级划分标准,如计划、执行、评价、补救措施等[28]125。为了充分测量考生运用上述策略的能力,考试形式设计为更贴近真实口语交流的直接面试式口语测试,涵盖考官提问、命题演讲和二人讨论三种形式。在体现口语活动的互动性、即时性、复杂性的同时,还能调动语音、语调等副语言因素,以及手势、眼神等非语言因素。题型与所测语言能力的对应关系如表2所示。
正式测试前,邀请专家根据试题是否充分测量能力结构、专题代表性、问题描述的措辞以及两套试题的难度等对试题质量进行评判,并根据专家建议对试题进行修改。另外,还邀请了6名刚参加高考的学生参加试点测试。为保证试点测试学生的水平尽可能接近正式测试学生的水平,试点测试学生的高考英语成绩也在110至150分之间。每位学生都接受了两套口语测试题的测试,以比较两套试题的难度差异。根据试点测试结果以及对学生的测后访谈,对试题进行了进一步的修改。
3. 确定评分维度和描述术语
制定评分标准需要确定评分维度和能力描述子。如前所述,口语能力是语言知识、能力和交际策略的综合运用。考虑到后期评分的可操作性,本次口语测试的评分涵盖四个能力维度,从发音和语言应用两个维度评估运用语言知识的能力,从流利度和连贯度维度评估组织语篇的能力,从沟通互动维度评估各类口语交际活动的能力和交际策略。
首先根据每个评分维度筛选出相应的分量表,包括语法知识应用能力表10、写作能力表6、各类交际活动能力表32-37、口语表达策略表38。其次,从对应《量表》3-6级描述符中提取出与各评分维度及测试任务相关的典型口语特征和能力描述。最后,分析不同层级描述符之间的差异,选取能够区分不同层的程度副词和形容词纳入描述符中,如表3所示。《量表》中的描述符均为“能做”的积极语言表现描述。为了便于实际操作,利用雅思、托福等国际语言测试的评分标准对消极语言表现的描述进行补充,初步确定评分标准。在收集了试点测试的学生样本后,邀请了三位熟悉《量表》的语言测试专家对样本进行评分,并描述样本的典型语言特征。 从这些特征中进一步提取区分不同层次的关键语言特征,以补充和修改原有评分标准中的描述符(表3)。
在计算学生的期末成绩时,各维度的权重比为1:1:1:1,将各维度的成绩得分相加并计算平均分。例如,某学生四个维度的得分分别为6、5、5、6,则最终得分为(6+5+5+6)/4=5.5分,最终成绩以平均分计算。若总分有小数点,则0.5分以上的部分计为下一高一级成绩,0.5分及以下的部分计为当前成绩。例如,总分5.75相当于6级;总分5.5或5.25相当于5级。
(四)测试执行
正式考试时,每位考官在14间相同的口语考场同时对两对随机配对的学生进行测试,每位考官连续测试4对学生。为避免漏题,前两对学生使用一套试题,后两对学生使用另一套试题,现场录音。随后,口语视频被随机均匀地分配给14位评分员,每位学生由两位评分员独立评分。评分员评分前需学习由考试样卷和学生样本组成的评分手册、考试须知及评分标准,参加评分标准化培训,并进行多轮试评。
四、验证
1. 研究工具
为了探究能力构念是否在测试题目中得到恰当且充分的测量,我们借鉴马来西亚某大学口语能力测试的情境效度问卷[28] 225 和 Weir 和 O’Sullivan 设计的认知加工问卷[28] 237-239,调整并设计了适合本测试的情境效度和认知效度问卷。情境效度部分包括任务设计、任务要求、测试环境、话题适用性以及两组测试题目的难度差异;认知效度部分包括完成测试所需的语法和词汇知识、语言能力和策略能力。
为探究测试题是否能准确测出学生真实的口语水平,本研究对测试题的评分效度和预测效度进行了检验。首先对评分者信度进行检验,然后通过直方图观察学生综合评分的大致取值范围。接着利用CTT对测试题的信度、难度和区分度进行分析,从多个维度验证测试题和评分标准的效度。此外,本研究还通过相关性检验、t检验和回归分析探究测试题的预测效度。
2. 数据收集与分析
1. 测试的情境效度和认知效度
考试结束后英语口语等级划分标准,向每位学生发放112份问卷,进行情境效度和认知效度测量。问卷要求学生回忆试卷的情境因素、对试卷的理解以及完成试题的认知活动。回收有效问卷107份,有效率95.5%。问卷采用五级李克特量表,Cronbach's α系数为0.936,整体信度较高。
情境效度问卷结果显示,70%的被试认同多个方面情境效度测量是有效的,包括任务设计、任务要求、测试环境、话题适配性等,说明测试题目的情境效度较高;但65%的被试反映与考官面对面交流时感到局促,命题演讲第二部分一分钟的准备时间不足。这可能与学生在高中阶段的中文讲解、笔试等语言学习习惯有关。因此在后续的语言教学中,需要加强同伴交流、师生交流等语言活动的设计,营造合作、沉浸式的语言学习氛围。
认知效度问卷结果显示,超过六成被试认为自己已经展现出了完成测试所需的语言技能与策略,但仅有43%的被试认为自己的词汇与语法知识足以支持口语测试任务,56%的被试反映在交际中运用了不同的词汇或句型来增强表达能力,这表明后续的口语教学设计需要更加注重语言知识的积累,提高词汇与句型的多样性。
2. 测试评分效度
为探究评分的效度,本研究分析了测试题目的评分者信度、Cronbach's α信度系数以及测试题目的难度和区分度。
此次评分采用分项计分方式,是为了给教学调整、课程设计提供更丰富的反馈信息。评分员需要根据学生整个口语测试的表现,对学生在各个维度的成绩进行评分,最终计算出综合评分。评分员经过两轮强化训练,评分员信度由第一轮的60%左右提升到可接受的信度范围,如表4所示。最终,各维度得分的一致性和相关性均高于70%,综合评分的一致性和相关性均高于80%,信度较高;t检验显示所有得分均无显著差异。因此,评分员对评分标准的认识相对统一,评分标准对评分的指导作用更强。这也说明各项目的评分数据具有可靠性,可以用于后续的数据分析。
测试分数的统计分析显示在表5中。尽管考试问题的总体可靠性系数为0.913,但口语的可靠性在不同的方面受到了不同的影响,但从表5中可以看出,这些问题的范围也可能是0.80。高分组和低得分组超过0.70,表明测试问题和评分标准有效地区分了不同能力水平的学生,根据评分结果的直方图,大约90%的学生的全面等级是4级和第5级,这符合测试的口语级别,这是英语的指导级别的,该规模均可及其量表。
3.测试项目的预测有效性
为了分析测试问题的预测有效性,将英语的口语考试和教师课堂观察的评分结果作为英语分数数据每个英语口语分数为5分,总分口语15分。入场口语口语,但没有对他们口语到的英语进行评分。 在第11个英语课后,观察教师将观察内容结合在一起,并给出了每个项目得分,并根据相同的评分标准和评分方法计算了总分与口语测试。
对于这两个外部绩效数据,我们首先测试了口语口语的综合评分与口语中期测试分数和教师观察等级之间的相关性。
The 口语 test and teacher observation in this study used the same scoring framework, and a t-test was conducted on the two variables to examine whether there was a significant difference between the two. The results showed that although 口语 comprehensive grading and teacher observation grading had the same scoring framework, the difference in scores between the two was significant (t=2.11, p<0.05). The reason for this is that although the two grading data used the same scoring criteria, the different time, method and environment of data collection may have led to slightly different 口语 proficiency of students.
回归分析用于测试口语测试的全面评分和教师观察的分级是否对学生的口语考试口语具有重大的预测作用,以验证口语测试的预测有效性首先比较ICAL的意义,然后通过口语分析比较两个模型的优势和缺点。
有效性验证结果
总而言之,基于社会认知有效性验证框架,这项研究全面验证了上下文的有效性,认知有效性,评分的有效性和预测有效性,结果表明:1)在口语有效性中测试的策略基本上是涵盖的,但是几乎一半的学生认为,他们的词汇和语法知识的广度和多样性在得分有效性方面不足以支持完成任务; IVE有效性,由于数据收集的时间,方法和环境不同,基于考试的分级和基于教师观察的分级之间可能存在某些差异英语口语等级划分标准,但是该测试可以显着预测学生的学业表现。
基于上述数据分析,入学后口语测试和评分标准可以更准确地反映学生的实际口语水平,并且可以显着预测其在随后的英语课程的口语部分中的学业表现。
五、结论
根据该研究的规模,该研究在接受新生,收集了相关数据,并对测试问题的有效性进行了全面的验证在口语的口语课程的口语部分中,对学生的学习成绩的口语英语。
这项研究也有助于新生课程。应提供基本的语言知识,创建口语应用方案并刺激学生的学习动机基于《量表》的英语口语测试开发及效度验证研究,以便他们可以迅速摆脱针对考试的被动和孤立的学习模式,并为其进行求职的口语教学,以评估他们的口语,以便将其用于口语,以进行教学。效果和学生的进步可以评估。
这项研究探索了基于量表的口语测试的发展和有效性的案例,但首先存在一些缺点,并受到操作性因素的影响是教师的课堂口语评分与口语口语分级之间的重要差异。
(省略参考)
(本文最初发表在《中国考试》,第5期,2024年中)
猜你喜欢
发表评论
评论列表