Overseas English Testing: Pedagogy and Research
Vol. 02  No. 02 ( 2020 ), Article ID: 35841 , 19 pages
10.12677/OETPR.2020.22007

An Analysis of Common Errors on Students’ Speaking Performance in Different Levels Based on SpeechRater® Scoring System

Jing Wang

Overseas Testing Management Center, New Oriental Education & Technology Group, Beijing

Received: Apr. 8th, 2020; accepted: May 12th, 2020; published: May 29th, 2020

ABSTRACT

As one of the influential achievements in today’s artificial intelligence arena, the automated speech scoring system has been implemented in the official examinations as an innovative approach. Now, ETS, as the developer of SpeechRater®, has devoted years of painstaking research to update the system after its initial use in TPO in 2006 and has decided to make the scoring system more accessible for the public users. The SpeechRater® can provide informative feedback for a given response, and help its users to have a better understanding of their speaking performances. Due to the increasingly large number of English learners in China, there is a growing demand for better practicing tools of speaking ability. Besides, it is acknowledged that the average TOEFL iBT speaking score of students in mainland China is round 19, which remains unchanged for ten years. Furthermore, most middle-level students whose speaking scores are around 24 find it is harder to reach a higher score than they expected. The goal of this study is to find common errors regarding the usage of vocabulary and grammar in speaking responses of students in different levels, and I hope I can provide a new perspective for teachers to get a sense of how to use SpeechRater® as a useful tool in teaching.

Keywords:Automated Speech Scoring System, Students in Different Levels, Vocabulary and Grammar, Common Errors

基于SpeechRater®不同分数段学生口语作答 常见问题分析

王婧

新东方教育科技集团国外考试推广管理中心,北京

收稿日期:2020年4月8日;录用日期:2020年5月12日;发布日期:2020年5月29日

摘 要

随着计算机技术的飞速发展,人工智能技术也在不断突破,计算机的自动评分技术作为一种新的评阅方式逐渐应用于口语考试的评分之中。美国教育考试服务中心ETS自2006年开始将SpeechRater®用于官方在线练习口语的评分中后,经过多年研究不断优化,将其自动评分系统对外开放,从五大方面12个维度给予学生口语表现反馈。中国大陆学生托福口语平均分常年处于19分左右,并且大多数学生口语分数无法突破瓶颈24分,为了帮助学生找到问题所在,本文对SpeechRater®不同分数段学生口语作答中词汇和语法上的常见问题进行了初探,希望能为教师提供一种新的视角去了解在教学中该如何使用好SpeechRater®

关键词 :口语自动评分,不同分数段学生作答,词汇和语法,常见错误

Copyright © 2020 by author(s) and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).

http://creativecommons.org/licenses/by/4.0/

1. 引言

在托福考试中,口语一直是中国考生的短板。从ETS提供的数据和教师们多年的教学经验中可以发现,中国考生托福口语平均分常年19分,多数学生向上很难突破24分。这一现象引发我们思考,是什么阻碍了学生口语分数的提高?为什么学生难以突破19分和24分?不同分数段的学生在口语能力上的表现有何差异?学生需要关注自己作答中的哪些方面来提高口语表现?这些问题都值得去探究。

根据托福口语的官方评分标准,考试会从语言表达(Delivery)、语言使用(Language use),话题发展(Topic Development)三个方面进行综合评分,这就意味着影响学生口语分数的因素是综合且复杂的。随着计算机技术、人工智能技术的进步,口语考试也逐渐开始采用计算机自动评分的新阅卷方式。美国教育考试服务中心ETS研发的SpeechRater®口语自动评分系统从五大方面12个维度给学生提供了细致的反馈,除了在作答内容上暂时无法准确评判外,基本上涵盖了托福口语评分标准中表达和语言方面的内容,同时提供了各维度学生表现百分位数作为参考。

经过对SpeechRater®12个评分特征的评估,我们发现流利度和发音方面所涉及的评测维度均较容易理解,如作答长度、语速、停顿频率等,通过SpeechRater®报告反馈可以直观地了解到学生存在的问题,因此在本文中不做过多探究。词汇、语法中学生存在的问题,由于SpeechRater®无法给出详细具体的反馈,其使用的准确性和多样性又需要结合学生具体的作答内容来评判。因此,本文基于SpeechRater®评分、The Compleat Lexical Tutor1所得出的数据信息以及有3年以上教学经验的教师们对学生作答文本内容的分析,去探究基于SpeechRater®不同分数段学生口语作答中词汇和语法上的常见问题,帮助他们找到存在的问题和难以突破瓶颈的原因,并从教学的角度提供一些学习、练习的建议。

2. 文献概述

2.1. SpeechRater®自动评分系统

SpeechRater®是美国教育考试服务中心(Educational Testing Service, ETS)研发的口语自动评分系统。2006年开始将SpeechRaterSM Version 1.0 (v1.0)版本应用到托福考试(The Test of English as a Foreign Language, TOEFL)官方TOEFL Practice Online (TPO)在线练习口语的评分中。ETS研究人员通过使用4162份TPO口语作答和3502份TOEFL iBT口语实验数据对SpeechRaterSM 1.0系统进行了基于论据方法的效度验证和分析,详细描述了在低风险练习环境下对不同特征如何进行自动评分,并且研究报告称如果SpeechRaterSM 1.0系统采用正式考试的数据进行评分,可与人工评分达到0.68的相关度 [1]。2018年,ETS发表研究报告总结了十多年间在口语系统评分方面取得的重大发展和进步,SpeechRaterSM 1.0系统也升级到了SpeechRaterSM 5.0。报告显示与之前的1.0版本相比,新系统增加了更多的评分特征,如词汇、语法等方面。在语音自动识别上也增强了准确性,单词识别错误率word error rate (WER)控制在了28.5%,同时系统中的过滤模型(Filtering Model)增加了非英语作答和离题作答,以减少学生使用策略迷惑系统以取得口语高分 [2]。

SpeechRater®的评分系统主要分为三个部分:自动语音识别程序(The Speech Recognizer)、口语特征提取程序(Features Extraction Programs)及评分程序(Scoring Model) [3] (详见图1),评分流程是语音文件通过语音识别程序进行解码,识别出单词和语音片段;之后,特征提取程序提取出评分的维度特征,输送给评分模型进行评分,最后将分数报告展示在用户界面上。

Figure 1. Architecture of an automated speech scoring system

图1. SpeechRater®的基本评分流程

SpeechRater®的使用,与传统的人工评分模式相比体现出了极大的优势。第一,计算机自动评分高效快捷,减少了人力、物力和财力方面的投入。第二,自动评分具有客观性强、一致性好的特点,在任何情况下都能保证统一的评分标准,从而较好的保证了评分的质量。第三,它可以避免人工评分中的趋中效应,保证考试的安全性。其局限性在于无法对作答的内容和逻辑等方面作出评判,因此需要加入人工评分。但作为低风险的托福口语考试练习评分工具,不仅能减轻教师的批改负担,同时还能给学生提供更多反馈和分数参考。

2.2. SpeechRater®评分特征与托福口语考试评分标准的关系

根据托福口语评分标准 [4],其主要从语言表达(Delivery)、语言使用(Language use),话题发展(Topic Development)三个方面进行评分。Delivery又包括流利度、语调、节奏韵律和发音;Language use分为词汇和语法两方面,其中词汇的多样性、复杂性、准确性以及语法的准确性、复杂度和范围都是评判的内容;Topic Development包括连贯度、观点展开和内容相关性(详见图2)。

Figure 2. The construct of speech for the TOEFL Internet-based test represented by the scoring rubric

图2. 托福口语评分标准

ETS研究人员在SpeechRater®报告中提到在选择评分特征和评估其特征表现时会重点关注与口语评分标准之间的相关性 [2]。根据SpeechRater®所提供的12个评分特征,分别为:

流利度方面(Fluency)

1) 作答长度:规定作答时间内输出的单词总量。

2) 语速:每分钟所输出的单词量。

3) 表达连贯度:表述时较少出现停顿或者多余填充词,如 um…uh…等。

4) 停顿频率:表述时停顿的频次。

5) 停顿的恰当性:表述时能否在适当的地方停顿。

6) 词语重复率:在一句话中重复一个单词和短语的频次。

发音方面(Pronunciation)

7) 节奏韵律:是否能掌握单词音节的重读。

8) 元音饱满度:发元音时的饱满程度。

词汇方面(Vocabulary)

9) 复杂度和准确性:是否能够使用不常见词汇进行正确表达。

10) 多样性:是否能够积极使用丰富多样的词汇进行表达。

语法方面(Grammar)

11) 准确性:表达在多大程度上能够匹配正确的语法规则。

语句方面(Discourse)

12) 逻辑连贯性:考查表述中句子与句子之间的关联程度。

可见,将其与托福口语考试评分标准相对比,SpeechRater®的流利度和发音方面的各特征,正是语言表达(Delivery)所关注的重点。词汇、语法方面也正是评分标准中语言使用(Language use)所关注的内容。存在的局限性在于话题发展(Topic Development)方面只有逻辑连贯性、作答长度两个特征给予反馈,但无法在观点的展开、阐述、准确性、完整度、相关度上进行评判。但是,从整体来看,几乎覆盖了评分标准的各方面。

3. SpeechRater®实证研究

3.1. 研究背景

新东方教育科技集团于2018年开始与ETS进行合作,国外考试推广管理中心引入了SpeechRater®系统作为学员线上练习托福口语的工具,提供全真模拟练习平台,以及官方反馈报告,留下了大量的学员数据。为了从测试数据中了解不同分数段学生口语作答中存在的问题,找到同一水平学生问题的共性,需要参考一些数据指标,并对学生的口语作答进行文本分析。希望能够通过分析和探索研究反哺教学,找出阻碍学生口语分数提高的因素,并从教学角度给出学习建议。

3.2. 研究材料和数据

托福口语题目分为独立口语和综合口语两种类型。独立口语题目贴近学生生活实际,考查内容和范围涉及学校、家庭、社会、生活、教育等多个方面,需要学生在作答时结合个人经历给出观点并进行阐述,学生的表达会更多展示出自己所积累的英语口语知识和能力。综合口语题目多以学术场景为主,并将听力内容和阅读内容与口语考查相融合,更为综合的考查学生理解、分析及总结等口语能力。由于综合口语题目存在听力或阅读材料,考生在作答内容中需要参考和结合,而非完全自我输出,用该类题目下学生的作答去分析存在局限性,故没有选择Task 4等其他综合口语题目。又因ETS 2019年对托福考试进行了改革,口语删除掉了独立口语题Task 1。因此,本次研究材料选择了托福TPO口语中的独立口语题目Task 2。

独立口语题Task 2需要学生从两个或三个题目所陈述的观点中选择一个自己最倾向或同意的观点,然后给出原因、细节、事例去支撑提到的观点。学生有15秒的准备时间,作答时间为45秒。截止2019年底,后台共收录学生作答数据714,923条,我们对各套TPO口语任务中学生的平均分进行了统计,发现没有显著差异(详见图3),进而选择了在题目内容上较好把握的TPO42 Task 2作为材料进行研究,该套试题的平均分为2.98分。其题目为:

Some people prefer living in a big city. Other people prefer living in the countryside, away from urban areas. Which do you think is better? Explain why, using specific details in your explanation.

需要学生进行二选一,是更倾向于住在大城市还是乡村,选择其中一个观点后并用细节和事例来阐述。

Figure 3. The mean score of TPO 1~54 speaking tasks

图3. 各套TPO口语作答任务的平均分

本研究共收集到4417条学生在TPO42 Task 2的分数(除去0分和TD2等无效数据),根据其分布及学生以往在托福考试中存在的瓶颈分,按比例抽取了80份学生作答录音,并邀请8位有3年及以上托福口语教学经验的老师参与,对学生录音进行精听和文本分析。

3.3. 研究分析及结果

3.3.1. 总样本数据及抽取样本数据描述性统计和分数分布情况分析

为了了解学生在TPO口语练习中的分数情况,以便抽取具有代表性的样本进行分析,研究对后台收录的714923条数据进行了描述性统计分析。其中,为保证分数的有效行,删除了所有0分及TD的分数数据。表1图4分别为学生(N = 714,923) TPO口语练习的描述性统计量和分数分布直方图。

Table 1. The descriptive statistic data of students’ TPO speaking tasks (N = 714,923)

表1. 学生(N = 714,923)TPO口语练习描述性统计量

Figure 4. The histogram of students’ TPO speaking tasks

图4. 学生TPO口语练习分数直方图

考虑到本次研究重点分析不同等级分数段学生在TPO42 Task 2口语任务上的表现,因此从后台提取了4417条学生分数数据,同样为保证分数的有效性,删除了所有0分及TD的分数数据。表2图5为学生(N = 4417) TPO42 Task 2口语练习的描述性统计量和分数分布直方图。

表1图4表2图5可以看出,学生在TPO口语练习分数、TPO42 Task 2口语练习分数中的平均分分别为2.98和2.95,中位数分别为3.00和2.96,众数分别为3.00和2.51,标准差分别为0.357和0.353,除了众数整体上差别不大,并且从分数分布的直方图来看,均近乎呈正态分布,说明抽取样本的代表性较好。

Table 2. The descriptive statistic data of students’ speaking task (TPO42, Task 2) (N = 4417)

表2. 学生(N = 4417) TPO42 Task 2口语练习描述性统计量

Figure 5. The histogram of students’ speaking task (TPO42, Task 2)

图5. 学生TPO42 Task 2口语练习分数直方图

3.3.2. 文本分析数据的整体情况

为了更深入的了解不同等级分数段学生使用SpeechRater®的作答表现,研究按照分数等级区间抽取80份学生录音数据进行文本分析。根据ETS每年发布的官方托福数据报告,近10年大陆考生的托福口语成绩基本在19分 [5],按照托福评分标准进行分数转化,对应的是2.50分。在多年的教学实践中发现,中国大陆学生口语24分为瓶颈分,对应的是3.16分。所以,研究增加了这部分样本数据的数量。最终抽取用于文本分析的数据分布和数量如表3

Table 3. The text analysis data of students’ speaking task (TPO42, Task 2) (N = 80)

表3. 学生(N = 80) TPO42 Task 2口语练习文本分析数据量

由于SpeechRater®在口语评分中涉及到语音识别并转文字的过程,我们无法从ETS方面拿到文本,于是对市面上各种语音转写和识别系统进行了比较和分析,最终选择了行业内被认可的科大讯飞语音转写系统3进行文本转写,转写后对其内容结合学生音频进行了校对,确认内容基本无误后,将文本通过The Compleat Lexical Tutor 对其词汇使用情况进行检测和标注,最后结合SpeechRater®提供的词汇和语法方面的数据由8位有丰富口语教学经验的老师参考,并进行文本分析,文本从词汇和语法角度切入,找到不同等级学生在此方面的表现和存在的问题。

3.3.3. 文本分析结果

1) 不同等级分数段学生Lexical Tutor用词统计

“新通用高频词表”NGSL (New General Service List)和“新学术词汇词表”NAWL (New Academic Word List)是被学术界广为认可的词汇学习词表,是从庞大的剑桥英语语料库中筛选出的高频和通用词汇,其中NGSL Level 1到Level 3使用频率由高到低。Lexical Tutor可对文本所包含的单词使用情况进行检测和统计,经过对不同等级分数段学生用词进行统计,得到下表4

Table 4. The statistics using by Lexical Tutor of different level students’ vocabulary usages (N = 80)

表4. 不同等级学生(N = 80) Lexical Tutor用词统计

表4可知,三个不同分数段的学生使用最多的是NGSL_1中的词汇,分别占到了88.03%、88.74%和89.81%,可见对于口语表达而言,基础、常用的词汇足以学生用来组织语句,表达观点。NGSL_2和NGSL_3中三个阶段学生的使用情况分别是3.04%、4.38%、4.16%和0%,1.29%,1.06%,但是经过对文本内容的分析发现,2~3分学生在NGSL_2和NGSL_3的词汇使用中,由于同一单词在回答中重复的次数过多,使得用词占比偏高,所以实际上是达不到4.38%和1.29%的。如下方文本展示:

可以看到在学生的作答中,urban作为题干所给出的内容,一共重复出现了4次,同时libraries也重复出现了3次,使得NGSL_2词汇的使用频率占比达到了10%,实际上学生的用词并没有达到多样性的标准。相反,在3~4分学生的作答中,可以看出高分段的学生能更好掌握词汇,同一单词使用的重复率相对较低,如下方文本展示:

高分段学生对NAWL词汇的使用为0.41%,要高于其他两个分数段的0.23%和0.20%。同时,笔者发现1~2分段学生在使用学术词汇时会出现错用的情况,如发音错误导致识别成学术词汇,进而导致NAWL词汇使用占比虚高。

2) 不同等级分数段学生词汇和语法错误统计及描述

在对80份学生录音文本进行分析后,笔者对不同分数段学生的词汇和语法错误及问题进行了整理,发现1~2分学生存在的问题主要有以下几大类(表5):

Table 5. Vocabulary and grammar errors in students’ responses (scored 1~2)

表5. 1~2分学生作答中(8份)词汇和语法存在问题归类

上述错误类型,在8份学生录音中共发现错误58处,其中在动词/形容词误用,名词使用错误(主要是单复数问题),丢失/错用定冠词,句式结构等方面问题突出。同时,介词、主谓一致、句子成分残缺等也都是易常出错的问题。如初学者常会受到汉语母语的影响出现介词的遗漏,汉语中“敲门”之间并不需要加介词,但英文中需要说knock at/on the door;或者介词的搭配问题,on the way而不是 in the way。还有,会常常在名词单复数上犯错,如One of the reasons,a lot of friends等等应该用复数的地方用了单数;动词/形容词的使用也常出现该用动词原形的时候用了动词ing形式;and并列结构前后的动词形式不一致;主语为复数many things,谓语没有用are却用了is;句式上对于简单固定结构的There be句型掌握不佳等等。对于这个分数阶段的学生,还有一个问题是学生在发音上的掌握较弱,会由于发音不准问题造成语音识别的错误,从而导致句子内容等出现错误,影响理解。

在SpeechRater®词汇复杂度和准确性、词汇多样性及语法准确性这三个维度上,学生表现所处的百分位数区间基本在1~30,即其表现仅超过1%~30%的学生。仅有个别特例在某一项上会超过70%的学生,但从整体来看,能力表现偏低。主要的问题在于词汇、语法基础弱,语言错误太多,很大程度上影响了对内容的理解。

2~3分,特别是2.5分左右是中国大陆学生口语成绩平均分19左右,2~3分学生存在的问题主要有以下几大类(表6):

Table 6. Vocabulary and grammar errors in students’ responses (scored 2~3)

表6. 2~3分学生作答中(40份)词汇和语法存在问题归类

上述错误类型,在40份学生文本中发现了145处错误,其中在搭配不当,名词/动词/形容词使用错误,句式结构、定冠词、限定词错误/丢失、句子成分残缺等方面问题较突出。可以发现,与1~2分学生作答相比较,在发音的识别问题上,与1~2分学生发音含混无法识别不同,这部分学生的问题在于易混淆单词,如customers-customs;plants-plans;ruler areas-rural areas;captain of China-capital of China;habits-hobbies等。此外,可以看出这部分学生已经掌握了基本的词汇和语法,但是在准确使用上还存在不少问题。如搭配不当,have entertainment-have fun (正确);go to the job-go to work (正确);the better facilities system应去掉system;transportation pop-transportation hub (正确)等;同时,学生语言基础较前者好,输出的内容更多后,出现了很多成分残缺,表达不完整的句子,如:

1) Well, I prefer to live in a big city, this [is-缺谓语] because I think it is more convenient.

2) And so I can [get-缺谓语] a better education in a big city. Not like [people in the] big city. such as [词汇错误,for example] can [主语缺失,you can]go shopping easily.

在句式结构上,较1~2分学生使用句式更多样和复杂,但容易出现错误。如对从句的掌握、对固定句式的掌握不佳等,如:

1) but but the but the country life is more relaxing than the city [life in the countryside is more relaxing than that in the city]。

2) I can go to a library or museum very convenient [It is convenient for me to go to a library or museum-句子结构错误]。

另外,2~3分学生表达中含有大量的中式表达。可见学生会受到中式思维、母语迁移的影响,出现不少中式表达,如:

1) everyone know (动词主谓不一致,knows) everyone,表达错误,应该为everyone knows each other

2) living in a big city will give the (冠词错误,去掉the) people a lot of pressure,表达错误,应该为 people will have a lot of pressure when living in big cities。

3) This transportation [this-代词错误,指代不明,和前文单复数不一致] will help you to move very fast and go anywhere that [that去掉-关系词错误] you want. 表达错误,应该为By taking the bus or subway will help you to get around with ease。

4) in the big cities you can develop yourself better. 表达错误,应该为 in big cities you can improve a lot.

5) It really cost time. 表达错误,应该为 It’s really time consuming。

这些问题都是学生在学习和练习过程中,应该关注到的。

在SpeechRater®词汇复杂度和准确性、词汇多样性及语法准确性这三个维度上,学生表现所处的百分位数区间基本在10~70,即其表现仅超过10%~70%的学生。个别会高于80或者低于10,但是从整体上来看,其表现会相对居中。主要问题在于词汇、语法掌握的不够娴熟,在使用过程中准确性较差,出现的语言错误会部分影响内容的理解。

3~4分,特别是3.0~3.2分对应的24分,是很多学生在托福考试中较难突破分数。3~4分学生存在的问题主要有以下几大类:

Table 7. Vocabulary and grammar errors in students’ responses (scored 3~4)

表7. 3~4分学生作答中(32份)词汇和语法存在问题归类

上述错误类型,在32份学生文本中共发现72处错误。其中发音不准造成的识别问题、定冠词、限定词/介词问题、主谓一致、搭配等问题比例相对较少,问题集中于名词/动词/形容词/代词等的使用,名词部分同样是单复数问题居多,动词、形容词中对词性的把握不准确,容易出现to life [应为to live],have more high [highly,词性错误] qualified schools and classes。等问题。同时,由于3~4分学生的语言基础较于前两个分数段的学生要好,所以可以明显看出学生在用词上更为丰富,组句上也更加复杂,输出内容也更多。但是,在长句的使用中,会出现句子成分不全、句式结构错误、时态等方面的错误(见表7)。

在表达中,同样会受中式思维的影响,出现一些中式表达,如:

1) and better medical condition is prepared,表达错误,应该为 and the medical condition is great as well;

2) gets much more clean air,表达错误,应该为gets fresh air;

3) Pollution is full of the atmosphere every day,表达错误,应改为every day, the air is heavily polluted。

在SpeechRater®词汇复杂度和准确性、词汇多样性及语法准确性这三个维度上,学生表现所处的百分位数区间基本在65~100,即其表现仅超过65%~100%的学生。个别会低于60,但从整体上来看,其口语表现会超过绝多数学生。主要问题已经从基础的词句问题过渡到对长句结构的把握,个别语言错误并不会造成对内容的理解。

3) 不同等级分数段SpeechRater®评分情况简述

为了了解SpeechRater®评分的情况,在选择样本时我们对学生的作答录音进行了筛选,剔除了与题目无关的作答及0分作答,同时确定了样本录音分数的合理性。在8位有3年以上教学经验的教师进行文本分析时,要求他们仅参考文本内容、SpeechRater®评分指标和Lexical Tutor统计数据给出自己的分数判定(每个文本均由两位老师评分)。笔者将分差大于0.5的结果进行了统计,如下表8

Table 8. The statistic regarding the difference between SpeechRater® score and teachers’ average score in different grades (scored greater than 0.5)

表8. 不同等级分数段SpeechRater®评分与教师均分分差大于0.5分统计

表8中可以看出,不同等级分数段教师评分均分与SpeechRater®评分的差异情况分别为2个、8个和26个。其中1~2分段,由于一个学生录音的声音太小,导致了识别过程中出现了大量的误判情况,教师均分可达到2.75分,SpeechRater®评分为1.8分,可见在使用SpeechRater®中,录音质量,声音不能过小也是非常重要的。另一个学生录音,教师均分给到了2.3分,SpeechRater®评分为1.7分,查看学生录音发现,学生口语表达中存在过长停顿、发音等问题使得分数比教师评分要低。对于SpeechRater®而言,其在发音、停顿等现象上要比教师更为客观和敏感,评分也更为严格。2~3分段,共有8个,尚可。但是在3~4分段,有26个文本分差超过0.5分,其中有25个出现教师均分低于SpeechRater®评分。根据教师描述发现,基本可分为两种情况:第一种情况是学生词汇、语法掌握基本娴熟,错误较少,在语言使用上也更加丰富和多样,但是在观点内容上有所欠缺,观点的展开不够,内容较少,没有对观点进行很好的解释和支持。如提到城市和乡村哪个好,学生选择说城市好,但只用例子说明了农村如何不方便,却没有对城市如何方便做足够的展开。第二种情况是整体观点的表述并无太多问题,些许展开不够,在逻辑性方面表现一般,但是在词汇和语法的使用上不准确,长句子存在的语法问题较多,导致表意不清,中式表达也在一定程度上影响了理解。如学生在表达中语病较多,使用了复合句式,但是引导词有时会用错,句子成分也有出现缺失的情况,词汇语法的运用上也出现了一些初级错误,需要仔细听去理解学生表达的意思。但是这个阶段的学生,语言流利程度普遍相对较好,语速快,发音也没什么问题,所以SpeechRater®的评分会较高。总而言之,SpeechRater®评分是基于12个维度给出的综合评判,而教师仅参考了文本内容进行评判,或多或少会存在差异,但是能够看出SpeechRater®在观点的陈述、内容的开展方面并不能做到准确的评判,评分会出现虚高的情况。

4. 结果及教学建议

4.1. 研究结果

根据上述分析结果,我们得出以下结论:

第一,不同等级分数段学生在口语作答中均会出现词汇、语法的使用问题,主要集中于定冠词、限定词/介词的丢失或误用、名词单复数问题、主谓一致问题、动词、形容词的错误使用、指代错误、搭配不当、句子成分残缺、句式错误等。其中,1~2分段学生语言能力有限,作答的内容普遍较少,存在较多的语言错误,影响了对内容的理解,较多的发音不准也造成了语音识别中的错误。2~3分段学生在词汇和语法上的掌握相对较好,使用上也更娴熟,但在准确性上表现不佳,常常出现词性误用、搭配不当等问题,同一事物或说法所用的表达较为单一,中式表达较多。3~4分段学生在词汇和语法的掌握上最好,能够使用一些并列、对比、从句等复杂句式表达观点,出现的语言错误对整体语义的理解不会造成太大影响,但是在用词、表达准确性上同样稍弱,也会受中式思维的影响产生中式表达。

第二,在SpeechRater®词汇复杂度和准确性、词汇多样性、语法准确性方面,1~2分段学生表现所处的百分位数区间基本在1~30,仅有个别特例在某一项上会超过70%的学生,但从整体来看,能力表现偏低。主要的问题在于词汇、语法基础弱,语言错误太多,很大程度上影响了对内容的理解。2~3分段学生表现所处的百分位数区间基本在10~70。个别会高于80或者低于10,但是从整体上来看,其表现会相对居中。主要问题在于词汇、语法掌握的不够娴熟,在使用过程中准确性较差,出现的语言错误会部分影响内容的理解。3~4分段学生表现所处的百分位数区间基本在65~100,个别会低于60,但从整体上来看,其口语表现会超过绝多数学生。主要问题已经从基础的词句问题过渡到对长句结构的把握,个别语言错误并不会造成对内容的理解。通过对Lexical Tutor用词统计,发现各等级学生口语作答使用的词汇多为NGSL通用词汇,但随着分数提高,高分段学生使用的NAWL词汇比例有所升高。

第三,由于SpeechRater®无法对内容作出评判,教师在对文本分析时发现,低分段学生通过SpeechRater®评分得出的分数相对更准确,但是在高分段由于内容无法被评判,学生作答中观点展开不够,缺少细节内容支撑,逻辑性不佳等都会对分数有所影响,仅因学生录音口语流利度高、表现好去评判,SpeechRater®的评分会便高。

4.2. 教学建议

4.2.1. SpeechRater®使用须知

由于本文将重点放在词汇和语法两个维度上,语音方面没有过多的讨论,但不得不提的是SpeechRater®对于口语录音的质量要求很高。根据观察,背景音嘈杂、录音声音过小、录音太过贴着话筒、周围有其他人说话等情况都会造成SpeechRater®语音识别有误,甚至无法识别,返回TD。

因此,对于上述情况,需要各位老师提醒学生在使用SpeechRater®时注意:

1) 选择安静的环境进行录音(无嘈杂、无吵闹背景音、无他人说话等)。

2) 可分别尝试使用耳机或不使用耳机,选取音质最好的方式。

3) 如果不使用耳机进行作答,录音时不要离电脑太远,保持适当的距离。

4) 如果使用耳机,尽量将话筒放置于下巴前,不要紧贴着嘴,避免对着话筒进行呼吸。

5) 试音/录音后,一定要复听自己的录音,确保语音是自然的,声音不会过大或过小。

语音识别是SpeechRater®评分的第一步,保证好的录音质量,学生的分数才更准确。

4.2.2. SpeechRater®语音、词汇、语法教学建议

在对不同分数段学生口语作答进行文本分析时,笔者发现学生发音对于机器评分来说非常重要。而低水平学生在发音上的问题更显著,这就需要老师们在日常的教学过程中多关注低水平学生的发音。不仅是元辅音发音准确、清晰,同时也要注意词重音、语句重音、连读弱读、意群的把握、语音语调等,比如很多中国学生对于长短元音/u:/和/ʊ/(e.g., food versus put)分不清。发长音/u:/时,嘴唇要撅起,尾音拉长,而发/ʊ/时,上唇撅起的程度比/u:/小得多,舌头不能太放松,舌尖有点往后的趋势,而非完全抵在下排门牙的后面,类似还有/i/ and /ɪ/ (e.g., sheep versus ship)。对于辅音来说,中国学生容易出错的/w/和/v/,很多学生读love的时候,门牙并没有顶住下唇内侧的习惯,常常读作/w/。此外,SpeechRater®还可以针对节奏韵律、重度等进行评测,所以需要给学生讲清楚发音规则后,带领不同水平的学生有针对行的练习,可以参考以下几种方法:

1) 让学生对语音配对(Minimal Pair)进行针对性训练;

2) 对原版英文材料进行跟读训练;

3) 能力高的学习者可以对原版英文材料进行复述训练;

4) 教会学生正确使用词典查阅单词,重点关注发音;

5) 学会利用不同的教学工具和方法训练学生正确发音和朗读;

6) 课堂教学过程中给予积极的反馈与纠正。

在SpeechRater®评分的词汇维度上,会关注到词汇使用的多样性、准确性与复杂性,多样性在SpeechRater®中会计算作答中的词汇数量和使用的词类,准确性与复杂性会评测学生使用词汇的高频度和熟悉程度。由于无法获得ETS SpeechRater®所使用的词汇语料库,我们选择了LexTutor中NGSL和NAWL两个词表。据统计,NGSL“新通用高频词表“可以覆盖90%以上的非学术型文章和日常使用情景词汇,适合基础较为薄弱,或者需要积累大量常用表达,提高听力和口语的学生。再加上NAWL“新学术词汇词表”,可以覆盖到92%的学术背景文章,这两个词表对于不同分数段的学生来说都十分有用。在我们自主研发的《直通托福校园生活词汇》和《直通托福课堂学术词汇》这两本词中书,均遵循词汇的自然学习顺序,从形态(form)到含义(meaning)最后到运用(use),帮助学生掌握词汇的音、形、意,并能正确的使用。在乐词APP上线的功能中新增了语音识别与反馈功能,可以有效利用提供给学生多样的练习方式,可以参考以下几种方法:

1) 教会学生正确背单词的方式,注重形、音、意的结合;

2) 按照类别、领域积累词汇,扩充词汇量;

3) 多积累词汇的近义词、反义词、词类活用等,增加词汇多样性;

4) 注意词汇的意义和搭配,加强使用的准确性;

5) 练习同义改写,精进词汇的使用。

语法部分,SpeechRater®在当前的评分维度中,主要的关注点在准确性上。系统会将学生的作答与引擎训练库中的语料进行比对,反馈给学生与他人作答表现的对比结果,从而判断学生的表现。它会判断学生使用的句型句式、从句使用的正确性、介词短语、名词短语等等是否正确。所以,针对不同能力水平的学生需要教师了解其语法知识体系是否完善,对于低水平的学生需要打下扎实的基础,中高水平的学生要进行查漏补缺。语法的学习和练习需要帮助学生理解语法规则并正确使用,可以参考以下几种方法:

1) 教会学生更好地理解语法规则和使用方法;

2) 有针对性的对学生存在的问题进行评估并帮助学生查漏补缺;

3) 设计有趣的活动或练习,多积累正确地道表达,注意学生正确组词造句;

4) 课上留意学生在表达中出现的语法错误,并记录予以反馈;

5) 督促学生自查,每次要复听自己的录音,并检查犯过的错误是否有再犯;

6) 进行同伴互查(Pair Check),让学生互相指出表达中的问题,并纠正;

相比写作而言,口语中的语法问题更不容易察觉,中国学生会受到母语迁移的影响常常he/she不分,名词单复数、主谓一致等都是常犯错误,只有帮学生找出问题,并在一次次练习中不断反馈,帮助他们形成意识,自我纠正,才能不断的进步,更好的正确表达。同时,教师授课任务繁重,课下督查学生作业压力大,借助SpeechRater®口语评测工具,参考学生作答在其12个维度上的表现,不仅可以帮助教师更直观的了解学生自身在各维度下相对的优劣势,还可以更客观地了解到学生与其他使用者相比,在某一评测维度上所处于的相对位置,更好的帮助学生找到问题所在,助学生稳步提高。

5. 研究不足

本文也存在很多不足:

首先,SpeechRater®无法对内容进行评判,会使得分数的准确性受到一些影响。但在实际的托福考试评分中,是有人工评分员加入共同评分的,在一定程度弥补了机器评分的弱项。另外,目前SpeechRater®能提供的评分维度有12个,但其还有很多潜在的维度在机器评分中暂时未能开发出来,机器评分的内核仍为黑箱子。

其次,目前我们对SpeechRater®所使用的词汇、语法训练库并不了解,很难找到它评分所参考的标准。在文本转写时也并非使用的是SpeechRater®所提供的文本内容,所以在语音识别上或多或少会存在一些差异。同时,8位教师在评分的过程中仅参考了转写的文本,个别老师有参考语音一起评分。

最后,SpeechRater®作为评测工具,只能提供参考分数,并不能完全代表学生在实际考试中的最终得分。所以,在教学中需要老师正确引导学生使用并进行练习。

文章引用

王 婧. 基于SpeechRater®不同分数段学生口语作答常见问题分析
An Analysis of Common Errors on Students’ Speaking Performance in Different Levels Based on SpeechRater® Scoring System[J]. 国外英语考试教学与研究, 2020, 02(02): 61-79. https://doi.org/10.12677/OETPR.2020.22007

参考文献

  1. 1. Xi, X.M., Higgins, D., Zechner, K. and Williamson, D.M. (2008) Automated Scoring of Spontaneous Speech Using SpeechRaterSM v1.0. ETS Research Report Series, 2008, i-102. https://doi.org/10.1002/j.2333-8504.2008.tb02148.x

  2. 2. Chen, L., Zechner, K., Yoon, S.-Y., Evanini, K., Wang, X.H., Loukina, A., Tao, J.D., Davis, L., Lee, C.M., Ma, M., Mundkowsky, R., Lu, C., Leong, C.W. and Gyawali, B. (2018) Automated Scoring of Nonnative Speech Using the SpeechRaterSM v.5.0 Engine, ETS Research Report Series, 2018, 1-31. https://doi.org/10.1002/ets2.12198

  3. 3. Zechner, K., Bejar, I.I. and Hemat, R. (2007) Towards an Understanding of the Role of Speech Recognition in Non-Native Speech Assessment. ETS Research Report Series, 2007, i-76. https://doi.org/10.1002/j.2333-8504.2007.tb02044.x

  4. 4. Educational Testing Service (2012) The Official Guide to the TOEFL Test (Fourth Edition). 166-170.

  5. 5. Educational Testing Service (2018) Test and Score Data Summary for TOEFL iBT® Tests January 2018-December 2018 Test Data.

  6. NOTES

    1The Compleat Lexical Tutor,是集多种功能于一体的大型免费语料库,可以对语篇词汇进行描述,如用词量、通用英语词表、学术英语词表中词汇使用占比等,用来评估不同学生用词的差异。

    2TD即Technical Difficulty 因录音质量问题导致的SpeechRater®系统无法评分的现象,后台均以TD返回。

    3科大讯飞公司在对外会议和报告中提到其语音识别准确率达到了98%。

期刊菜单