临床医疗英语应用文语料库建设方法

临床医疗英语应用文语料库建设方法

【摘要】临床医疗英语属于科技英语的一个分支。对医学生而言,学习和掌握临床医疗英语应用文语言特点与写作技巧尤其重要。在我国将语料库技术与专门用途英语相结合的研究正方兴未艾。在简述二者结合的必要性和重要性的基础上,探讨临床医疗英语应用文语料库的创建原则、建库步骤与建设方法。

【关键词】临床医疗英语;应用文语料库;建设方法

作为一种科技文体,临床医疗英语具有严谨规范、逻辑严密、客观简明的语言特色,其遣词造句、语法结构具有独特的词汇体系和句法特征。随着全球化的进程,医学生必需具有国际化的学术视野,经常了解国内外领域的最新动态,不动查阅医学文献。在本科阶段,对医学生而言,学习和掌握临床医疗英语应用文语言特点与写作技巧尤其重要。因此,建设临床医疗英语应用文语料库,开展基于医疗英语的医疗行业英语语言的研究更具有紧迫性。语料库不同于电子文档或数据库,语料库的建设有特定的研究目的和具体用途,临床医疗英语应用文语料库主要用于研究临床医疗英语词汇,分析临床医疗英语应用文语言特点,完善和开发相关教材等。

一、临床医疗英语应用文语料库创建原则

临床医疗英语应用文语料库的总体建库原则是建立一个能全面反映临床医疗英语语言事实的语料库。该语料库的建设应遵循随机抽样法、内容真实性、语料代表性、库容适度性等原则。

1.随机抽样

语料库是在随机采样的基础上收集的有代表性的真实语言材料的集合,是语言运用的样本。因此,临床医疗英语应用文语料库在语料抽样范围和主题覆盖方面都力求取得平衡,在收集语料时按比例分层抽样,需要考虑到每一主题类型的抽样比例,在分布上应尽可能均匀。主题涵盖礼仪文书、求职文书、医务文件、公务文书和科研文书五个方面。

2.真实性

真实性是建设语料库的基本前提,无此前提,语料库就不能反映真实的语言面貌,基于语料库的研究及得出的结论也必然是毫无意义的。具体而言,一要收集实际使用中的文本,而不能是研究者杜撰的;二要收集符合条件的文本,不符合的一律剔除。为了确保语料的真实性,应以复印、扫描或拍照等方式收集最原始的语料,从源头上保证语料的真实性。

3.代表性

语料库的代表性,即研究中所使用的语料是否能够代表我们需要研究的语言。它对建成语料库应用语言研究结果的可信度至关重要,这是建设临床医疗英语应用文语料库的首要原则,是区分语料库与语料档案库的重要标准。一个语料库是否有代表性首先要看语料库所代表的总体。总体而言,临床医疗英语应用文语料库代表的往往是理论上有限而实际上无限的总体。现实中建库者不可能将所有的临床医疗英语应用文语料全部收集起来。为了提高语料的代表性,必须借助统计学抽样方法,确保建立的语料库中的语料样本能最大限度地反映总体的特征。

4.库容适度性

语料库规模并不是越大越好。总体而言,10万词次的语料库可以满足音韵学研究,形态学研究的语料库需要达到50万词次,而句法学研究则需要50万到100万词次的语料库。我校建设的临床医疗英语应用文语料库初步库容为50万词,各主题均占20%,约10万字。该语料库具有开放性、动态性和扩容性的特点,争取在语料库初步建成3年之后进一步扩展到100万词。

二、临床医疗英语应用文语料库建库步骤

临床医疗英语应用文语料库的建库步骤主要涉及语料的来源、采集、整理、标注、统计等内容。具体说来临床医疗应用文语料库的建设要经历下列18道工序:语料库设计、确定语料收集范围、先导语料采集取样论证、编制语料收集要求和工作流程、培训语料采集人员、语料正式采集、回收语料并分类保存、纸质语料文本转为txt文本、校对、语料清洁整理、抽检语料样本、对所有文本进行文件头部元信息标注、校对、分词、语料标注和词性赋码、校对、复查抽检、对语料进行统计分析等。

三、建设方法

1.建立语料库

建立语料库涉及到文本的扫描、录入和反复校对。每个取样存为一个单独文件,文件名以学科领域等因素命名。完成文本的数字化后进行文本整理,它是语料库建库的关键环节,涉及文本的备份、文本的清洁整理、语料元信息的标注等环节。整理后的文本要进行文本加工,文本加工涉及分词、词性标注及其他语言信息标注等环节。在临床医疗英语应用文语料库中,标注主要包括头部元信息标注和词性标注。元信息主要包括:文本说明信息(序号、文本分类等)、文献信息(作者、时间、标题等)、文本结构信息(章节、段落等)等。元信息标注是后期语料库检索、查询、分析、构建子语料库的重要依据和条件。临床医疗英语应用文语料库的最终标注格式是XML。即可扩展标记语言。它具有跨平台的优势,一般用于数据存储。

2.实现检索软件的自动抽取

为了能够抽取研究者感兴趣的语言单位,需要运用自动检索工具,这些工具为可单独运行的检索软件。单语纯文本语料库支持WordSmith、AntConc、Editplus等检索工具对文本各种信息和语言特色的检索分析。

四、可能遇到的问题和解决办法

临床医疗英语应用文语料库的建设重点是语料库的代表性,即语料能否代表所要研究的语言。语料库的代表性主要涉及语料库的设计容量、语料来源以及取样的平衡。解决办法是在具体语料采集环节之前要进行取样论证,根据设计容量和语料来源、获得途径、著作权法等相关法律法规明确取样准则和标准。然后根据取样准则进行随机简单抽样、先导分析并进而制定临床医疗英语应用文语料库的工作计划和工作流程。建设难点是语料库的标注。即把表示各种语言特征的附码添加到相应的语言成分上,以便于计算机对特定语料进行识别和提取。标注工作的加工深度直接影响整个语料库的质量和应用价值。解决办法为实施标注工作前确定标注环境、工具、标注内容和规则、制定标注标记集等,确保语料标注的一致性和准确性。限于篇幅,笔者将另文赘述。临床医疗英语应用文语料库的建设和相关研究,一方面,可提升语料库研究在国内专业领域理论研究基础。另一方面,可以通过在临床医学领域的应用,有利于解决该领域国内外科研技术交流中的语言障碍,提升本领域的学术交流合作。此外,也可促进临床医学在词典编纂、术语研究、语篇分析、文本资料分析、教材编写和语言教学等方面发展,此领域的研究工作具有重要的理论和现实意义。

作者:张文奕 卢喆 宋雪姣 单位:甘肃中医药大学国际教育学院