MALL下朗读口语自动评测的实验探索

MALL下朗读口语自动评测的实验探索

【摘要】移动语言学习(Mobile-AssistedLanguageLearning,MALL)为英语口语学习提供了更好的资源和平台,其有效性受到了一致肯定。为帮助二语学习者更加客观理性地使用英语学习软件,本研究利用Praat语音分析软件对二语学习者模仿音频进行超音段层面的参数调整,通过对比其口语测评分数,剖析口语自动评测的有效性,同时通过问卷调查,探究二语学习者对于口语自动评测的态度。实验结果显示,口语评测结果在超音段层面上不具有有效性。问卷调查结果表明,二语学习者对于口语评测功能持有很高的喜爱度、信任度及满意度,两者之间存在明显不对等性。

【关键词】移动语言学习(MALL);口语自动评测;超音段

一、引言

移动学习主要是指利用微信公众号、移动应用程序(APP)等移动互联网平台进行在线学习的行为。随着教育信息化,如何利用移动互联网平台开展外语教学改革,已经成为现代外语教育领域的重要研究方向之一[1]。传统口语评测通常依靠大量专业人员根据统一评分细则进行评分,评分一致性难以得到保证。同时,耗时耗力,难以满足大规模评测需求。口语自动评测技术以其客观性、批量化、及时性等特点,弥补了人工评测的不足。目前,专业化的口语评测技术已被尝试应用于大型口语考试,大量英语口语学习软件为学习者提供了口语自动评测功能,但其有效性仍存在质疑[2]。鉴于此,本研究以使用率较高的四个英语口语学习软件(英语趣配音、英语流利说、BBC、VOA)为研究对象,聚焦评测环节,对其有效性进行探究,以期帮助学习者更加客观理性地使用英语学习软件,同时为口语自动测评技术发展提供一定参考。

二、文献回顾

(一)移动辅助语言

学习21世纪以来,移动信息技术突飞猛进,智能手机性能日趋完善,为移动辅助语言学习不断注入活力。MALL以其个性化、情境性、真实性、自发性、非正式性等特点弥补了课堂教学的不足,学习者可以根据需求选择学习时间、学习工具及学习材料进行自主学习。国内外关于移动辅助语言学习的研究主题基本一致,研究前沿表现在MALL系统架构、虚拟学习任务设计、新技术融合和MALL理论研究四个核心领域[3]。

(二)朗读口语自动评测

语言测评是检测语言学习、提供教学反馈的有效手段。一些地区已经建立较为完善的口语教学考试系统平台,可在专用的语音机房进行口语教学、练习和模拟考试,借助语音评测技术,教师可即时获得学生的评价得分反馈,教学效率得到大幅度提升[4]。同时,提供口语自动评测功能的英语学习软件得到广泛应用,学生可以通过手机APP随时随地进行自主学习。但这并不意味着自动口语评测可以完全代替人工评测。实际上,在大量实践中,自动评测技术往往起着辅助作用,结果仍要依据人工评测,口语自动评测的可行性始终是国内外研究的着重点。总体来说,相关研究主要存在三个方面的问题:第一,相关研究大多从技术研发的角度出发,对语言学层面关注不够。第二,研究对象局限于应用于大规模口语考试的口语自动测评系统,各学习软件中的口语自动评测功能基本没有涉及。第三,就研究方法而言,相关研究往往运用文献综述、描述分析等方法对其历史发展、当前现状进行总结,语音试验没有受到足够重视。

三、研究设计

(一)研究问题

本研究主要回答以下两个问题:1.超音段特征的改变在多大程度上会影响口语测评结果。2.二语学习者对于英语学习软件的口语自动评测功能持有何种态度。

(二)受试

由于手机学习软件的使用群体大多为大学生,本实验的受试为我国中部某师范院校8名非英语专业三年级学生,全部为女生,来自同一班级,母语为中文,无国外旅学经历,均为英语口语学习软件的长期使用者。

(三)模仿材料

选取本实验使用的实验语料均选自4个英语口语学习软件,每个软件分别选取4句,包含4种句子类型(陈述句、一般疑问句、特殊疑问句、感叹句),共选取16句本族语者朗读的句子作为实验语料,所有实验朗读句难度适中,语速适中。

(四)实验过程

由于研究对象是移动辅助学习视域下的英语学习软件口语自动评测,该实验的试听和评测均在手机上完成,录音及语音合成环节均在语音软件Praat上完成,录音在安静环境下进行,采样率为44100Hz,16位,单声道。实验过程分三个部分:1.受试者实验句进行模仿朗读,并同期录音,若朗读失误(过长停顿、错词、漏词),则再次进行朗读录音。2.完成录音后,使用Praat语音分析软件对录音的音高、音长、音强分别进行调整,生成合成语音。3.使用四个英语学习软件分别对原录音及合成语音进行口语评测,得出评测分数。

(五)数据处理

本研究使用语音分析软件Praat对所有模仿朗读语料进行超音段参数调整,保证其音段特征保持不变。语音合成工作由两名受过语音知识培训的专业人员共同完成。语音调整从三个方面进行:音高、音长、音强。本实验对音高的调整简单分为五类:升调、降调、升降调、降升调、平调,音高调整仍保持原有模仿音频的调域不变,仅通过音高调整改变其调型。预实验结果显示音长参数过高或过低都可能导致音段层面的差异,从而影响评测结果,本实验音长调整包括0.5倍、0.8倍、1.2倍、1.5倍四种类型,部分极端数据后续将会进行具体分析。同时,预实验结果也显示评测系统难以识别过低音强,而过高音强会导致削波现象,影响音频质量,本实验音强调整仅包括0.8倍、1.2倍两类。

(六)问卷调查

问卷调查采用里克特6点量表,从喜爱度、信任度、满意度等方面,调查学习者对口语评测功能的态度,最后一题为开放题,调查学习者对于口语评测功能的建议。SPSS分析结果显示,其Cronbach’sα为0.89(>0.70),说明该问卷具有很高的信度,同时从旋转成分矩阵因子载荷系数来看,各题项系数从0.639到0.902,说明问卷具有良好的结构效度。

四、实验结果与讨论

(一)音高、音长、音强调整与口语评测分数的关系

在听觉上,人们可以感知到由语音的基本要素如音高、音长、音强等在语言产出中产生的规律性再现,这种韵律模式就是节奏,直接影响交际的有效性和自然度。为进一步探究音高、音长、音强调整与口语评测分数关系,本实验将不同音高、音长、音强特征的音频的口语评测分数作为多组相关样本,对三部分(包括原模仿语音)分别进行多组配对检验,以探究它们之间是否存在显著差异,其中6组为全部音频,5组为不包括原音频,结果如表1。表1中音高Sig值为0.031,小于一般可接受的0.05的显著值,但远大于0.01的显著值。同时,其X2值为12.331,略小于显著值为0.03,自由度为5的临界值12.833。因此,我们很大程度上可以接受虚无假设,即6个变量之间无显著差异,也就是说,音高调整对于口语测评分数略有影响,但差异不够明显。表1中音长Sig值(0.002)远小于显著值0.05,从该结果来看,音长调整对于口语测评分数具有显著影响。而实验结果显示,音长调整程度与口语评测分数以原模仿音频音长为中心,向两端基本呈负相关关系,即音长调整程度越大,口语测评分数越低,当音长长度调小时,差异更加明显。同时,口语测评结果显示,当音长调整过大时,口语评测系统或无法清晰识别语音,测评结果指出的音段层面错误明显增加,而此类现象在音高和音强调整的合成语音中并未有明显体现,音长调整导致的音段层面错误可能是测评分数下降的主要原因。表1中音强Sig值(0.223)远大于显著值0.05,也就是说,音强强度调整对于口语测评分数不具有显著影响。同时,通过口语测评分数可以明显看出,音强调整后的合成语音的测评分数与原模仿音频基本一致。总体来说,实验结果显示音高、音强的参数调整对于口语测评分数没有明显影响,音长的参数调整虽影响了测评分数,但通过测评结果可以看出,随着音频长度的改变,单个单词的评分等级会有所不同,例如句1“youcangothereonfoot”,当音长调整为0.5倍时,单词“there”由1倍音长下的绿色标记(发音很好)变为了黑色标记(发音不准确)。因此,在音长调整的情况下,测评分数变化主要是因为音长调整过大导致了音段层面问题。研究表明,超音段特征的改变必然会对语音可理解度和清晰度造成影响[2],而在本实验中,以音高调整为例,本族语者朗读句16“Wearewishingyouhappyholidays!”为升降调,二语学习者模仿语调基本与其保持一致,五段合成语音的语调均与原声音频存在巨大差异,但口语评测分数基本相同,且分数处于评测系统划分的“杰出”范畴(≧85:杰出,70~84:优秀,60~69:良好,≦59:有待提升)。因此,从超音段层面而言,我们可以认为口语评测结果不具有有效性。

(二)问卷调查

针对英语口语评测功能的问卷调查表明,高校学习者对于口语评测功能持肯定态度,对于口语评测功能的喜爱度、信任度、满意度很高。学习者对于口语评测功能的建议主要包括两个方面。第一,韵律识别不充分。如“口语评测功能无法识别情绪”(学生1),“识别功能有待提高”(学生2);第二,评测结果未提供具体建议。如“有时提出的建议不够具体,使用者出现不清楚的状况”(学生3),“增加规范口语指导”(学生5)。这与笔者预判基本一致,前期初步调查显示,自动评测功能基本提供了较为清晰的音段层面的反馈(绿色:发音很好;黑色:发音不准确;红色:发音无法识别),但对于超音段特征没有提供任何反馈,这也是进行本实验原因之一。移动语言学习的使用群体大多为在校大学生,使用语境基本为自学,全面应用于课堂的情况几乎没有。因此,二语学习者在学习过程中往往无法得到老师的专业指导,仅依靠口语学习软件指导及经验进行学习,对于反馈信息,不具备客观判断的能力。假设二语学习者在模仿过程中依旧沿袭母语习惯,使用降调朗读疑问句,而口语测评结果仍给予高分反馈,那么学生在不具备专业语音知识的情况下,可能会盲目自信,无法意识到自身的发音问题,始终将降调应用于疑问句,从而造成语音学习僵化,影响口语学习效果。虽然在学习成效上,国内相关研究大都证明移动学习对外语学习具有正向影响,同时本实验问卷调查的结果也对学习态度的积极作用形成了有力的支持,但就整体而言,评测结果作为学习效果反馈,必然会对学习者下一阶段的学习产生指导作用,从而对再输出产生影响。换句话说,在学习者对原声音频进行再次聆听及模仿过程中,此前的评测结果会与原声音频共同构成输入环节。因此,不准确的反馈信息作为再次输入的一部分,对学习者后续学习可能造成的负面影响是不可忽略的。

五、结语

本研究通过Praat语音合成对原有模仿语音的音高、音长、音强三方面进行了参数调整,经过对其口语测评分数的统计分析,研究发现,语音超音段层面的变化对于口语测评分数不具有显著影响,换句话说,从超音段层面而言,英语口语学习软件的口语测评分数不具有可靠性。问卷调查结果显示,二语学习者对于口语测评功能具有很高的喜爱度、信任度及满意度。由本文研究结果可知,口语测评结果的有效性与学习者的信任度存在明显的不对等现象,从这一角度而言,移动语言学习对于英语自主学习的负面影响是不容忽视的。二语学习者在使用口语学习软件时,应该以更加客观审慎的态度看待口语评测结果,最大程度的规避其负面影响。同时,口语测评功能开发也应该更加关注语音的超音段层面,给予二语学习者更加全面可靠的语音指导。由于语音合成所花时间较长,研究样本数量有限,研究发现的分析有待深化。进一步的研究非常必要。

作者:吕锦 单位:西安外国语大学