Modern Linguistics
Vol. 07  No. 06 ( 2019 ), Article ID: 33202 , 11 pages
10.12677/ML.2019.76116

Study on Corpus-Based Lexical Features of Geoscientific English

Chunyan He, Ling Zhu

School of Foreign Languages, China University of Geosciences (Beijing), Beijing

Received: Oct. 30th, 2019; accepted: Nov. 20th, 2019; published: Nov. 28th, 2019

ABSTRACT

Based on lexicology, corpus linguistics, and English for academic purposes (EAP) linguistics, this paper built a corpus of 130 thousand word tokens called Geoscientific English Mini-Corpus (GSEC, for short). Based on this corpus, using AntConc and Wordsmith software, and taking British Academic Written English (BAWE, for short) as a reference Corpus, this paper analyzed the lexical length, density and frequency of geoscientific English, and then generated frequency list to analyze the features of function words and content words in GSEC and their word-formation characteristics. Furthermore, the GSEC keyword list was generated to analyze the collocation characteristics of the significant high-frequency words. Finally, referring to the features of geoscientific English words, this paper gave out some suggestions on geoscientific English vocabulary teaching and the study on geoscientific field.

Keywords:Geoscientific English Mini-Corpus, British Academic Written English, Lexical Features, English for Academic Purposes

基于语料库的地质英语词汇特征分析

何春艳,朱玲

中国地质大学(北京)外国语学院,北京

收稿日期:2019年10月30日;录用日期:2019年11月20日;发布日期:2019年11月28日

摘 要

本文以词汇学、语料库语言学、学术英语语言学为理论基础,首先构建一个十三万词次的微型地质英语语料库(Geoscientific English Mini-Corpus, GSEC)。基于此,借助AntConc和Wordsmith等分析软件,以英国学术书面英语语料库(British Academic Written English, BAWE)作为参照语料库,通过对比分析两个语料库,探究了地质词汇的词长、词汇密度、词频,并进而生成词频表,分析语料库中功能词、实义词的特点及构词特征。与此同时,生成GSEC主题词表,分析其中的显著高频词的搭配特点。最后结合地质英语词汇特征,对地质英语教学和地学研究提出了几点建议。

关键词 :微型地质英语语料库,英国学术书面英语语料库,词汇特征,学术英语

Copyright © 2019 by author(s) and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License (CC BY).

http://creativecommons.org/licenses/by/4.0/

1. 引言

在全球经济一体化的21世纪,国际化的信息社会对英语人才的需求也趋于多元化。越来越多的公司、企业和事业单位倾向于选择“专业 + 英语”的复合型人才,以便于更好地进行国际间学术交流和项目合作。因此,专门用途英语作为现代英语的一个重要组成部分,在教学和自然科学研究领域内逐渐引起了人们的关注和重视。

地质学,作为自然科学五大基础学科之一,是一门探讨地球如何演化的自然哲学。近些年,随着地矿资源的需求急剧上升,这就要求国内地质人才在全球范围内进行地质资源的勘探和研究。然而我国地质工作者在实际工作和科研中遇到的首要难题便是专业词汇。因此,对地质英语词汇的系统研究意义重大。一方面是由于地质专业涉及相关学科众多,专业词汇数量大、单词过长,且除了少量词汇具有纯粹的地质含义,大部分地质词汇受到词义不统一的影响,因此难以记忆和掌握。另一方面是因为地质学专业英语词汇研究不足,尚未对该领域专业词汇进行系统的分析和归类,未找寻出一些行之有效的记忆方法。因此,对地质英语词汇的系统研究意义重大。

本研究以词汇学、语料库语言学、学术英语语言学为理论基础,针对地质英语语料库研究的不足,在充分借鉴国内外相关研究成果的基础上,结合中国地质大学(北京)地质英语教学和学术英语课程教学的实际需求,通过构建一个十三万词次的微型地质英语语料库(Geoscientific English Mini-Corpus, GSEC),借助AntConc和Wordsmith等分析软件,并以英国学术书面英语语料库(British Academic Written English, BAWE)作为参照语料库,通过对比分析两个语料库,分析地质词汇的词长、词汇密度、词频,并进而生成词频表,分析语料库中功能词、实义词的特点及构词特征。并据此生成GSEC主题词表,分析其中的显著高频词的搭配特点。

2. 微型地质英语语料库GSEC的构建

2.1. 建库的原则

一般来说,语料库建库需要遵循以下几个原则:① 代表性原则。这是建库首先要遵守的原则。② 适度性原则。本研究的研究只限定于期刊论文的摘要的词汇和搭配研究,并不涉及语法和语篇,因此,十三万词次的规模基本可以满足本领域研究的需求了。③ 开放性原则。开放性原则主要体现在两个方面:一是可补充更新性,二是可并库性 [1]。地质英语语料库属于理工类、学术类和专用英语类语料库,因此可以与同类别的其他语料库合并,增强语料库的利用率,实现资源共享和共同发展。

2.2. 微型地质英语语料库GSEC的建设和加工

2.2.1. GSEC语料的采集

在大量文献研究的基础上,以语料库语言学为理论基础,根据中科院2013年SCI论文分区(中科院论文分区网址:http://www.fenqubiao.com/),通过查阅期刊的影响因子和主题的相关性,最终选取了地质学研究领域1区的SCI英文期刊论文13本。随后,依据被引数,从Web of Science数据库中下载收集得到2014-2016年的期刊论文摘要共计525篇,表1即为13本期刊及所选取的论文摘要数统计情况。在论文抽取的过程中,为了保证科学性,对每本期刊都选取了每年同一个时段(月份)刊出的期刊论文。在选取论文时限定了论文内容为“文章”(Article),而非书评、会议通知、作者介绍等。

Table 1. Numbers of papers abstracts of the 13 journals

表1. 13本期刊及所选取的论文摘要数统计情况

为了体现所选期刊是代表地质学科领域的前沿,通过查阅了13本期刊的影响因子,图1所示,这些被选的期刊近五年影响因子均在4.5以上,其中ANNU REV MAR SCI的影响因子达到了18.1。这说明这些期刊的选取是可靠的,语料的选择也是具有地质特色的。

2.2.2. GSEC生语料的加工和整理

生语料的加工和整理是一个漫长而费力的工作。由于从web of science中下载的文档皆为PDF格式,因此,在复制粘贴的过程中会出现大量的“杂质”,如中文乱码、标点符号问题、错误的换行等等。因此本文采用“风林2005”的中文版“文本整理器3.0”(http://fenglin609.27h.com/)对各保存为纯文本格式(*.txt)的所有语料库文本进行加工整理。然后对清洁后的文本进行命名,为了便于日后检索时辨识,统一命名格式为“简写的期刊名 + 期号/卷号 + 年份”。通过一系列操作,最终生成了.txt文本共计39个,如表2所示。通过一系列的文本加工整理,GSEC生文本语料库建成,共计13万词次。

Figure 1. 5-year impact of each journal

图1. 期刊的影响因子

Table 2. Sources of GSEC texts

表2. GSEC语料库文本来源列表

3. 地质英语词汇特征的分析

3.1. 地质英语词汇的一般性特征分析

3.1.1. 词长、词汇密度

为了从词长和词汇密度探索地质英语词汇的一般特征,本研究借助WordSmith Tools 6.0的词表统计功能,通过对比GSEC和BAWE两大语料库的统计数据,从而探究地质英语词汇的一般特征。

根据两大语料库词表统计分析结果,形成表3两个语料库在平均词长和标准化词长上的对比数据结果。从表3可以看出同为学术英语笔语语料库,GSEC和BAWE这两个语料库的平均词长都为5 个字母,但是GSEC的标准化词长大于BAWE,由此可见GSEC中的词汇更专业、更复杂,因此难度更大。

Table 3. Contrast of word length between GSEC and BAWE

表3. GSEC和BAWE语料库的词长对比表

再通过对比可得到表4的两个语料库密度对比数据。从表4可以看到,标准化词汇密度一栏中GSEC的密度大于BAWE语料库的词汇密度,这进一步显示了GSEC中的词汇的复杂性和学习的难度。

Table 4. Contrast of lexical density between GSEC and BAWE

表4. GSEC和BAWE语料库的词汇密度对比表

3.1.2. 词频

除了词长和词汇密度的统计外,本研究的其他分析检索工具将都使用日本早稻田大学科学工程学院科学工程英语教育中心的Laurence Anthony教授自2002年起研发的一款绿色免费的语料库检索软件AntConc 3.2.1w [2]。借助该软件生成GSEC语料库的词频表,表5为词频表前20个词的词频情况。根据词频表发现,GSEC前20个词中功能词占19个,包括冠词(a、an、the)、助动词(is、are、have)、连词(and、as)、人称代词(we)、介词10个。人称代词we频率最高,可以看出GSEC篇章的客观性和学术性特征,三个代表现在时态的助动词(is、are、have)可以表明地质英语期刊论文摘要的时态和语态特征——现在时和被动语态为主。被动语态则同样体现了客观性和学术性的语篇特征。

Table 5. Word list of GSEC (top 20)

表5. GSEC语料库词频表(前20个词)

注:本词频表为未导入停用词表的原始词频表。

为了进一步研究地质英语的专业词汇,导入停用词表来筛选并按词频顺序提取得到仅有实义词的地质英语词频表。同时为了更清晰地观察高频词汇,通过词簇化处理,处理词频表中词汇的所有屈折变化形式,从而达到“瘦身”词频表的目的,处理后的词频表实际上是词形表,如表6所示。

Table 6. Cluster list of GSEC (top 50)

表6. GSEC语料库词簇表(前50个词簇)

注:本词形表经导入停用词表和词簇化处理。

表6为导入停用词表和词簇化处理后的GSEC语料库中词频排名前50的高频词簇。观察这些高频词不难发现,名词占绝大多数,共计38个,且前10个高频词均为名词;剩余的为8个动词和7个形容词。名词及名词化的语篇体现出学术性、客观性及正式化的用词特征。

同时,在这些高频词汇中,如词频最高的model以及data、process、study、system等词实际上在各学科领域的学术期刊中皆为高频词汇,这类学术性的词汇被称为半技术词(semi-technical words),因此这些高频词汇即体现了地质学科的专业性,也体现了学术英语词汇的通用性。

从词汇意义来观察,前20个高频词汇体现了地质领域学术研究的研究方法——模型构建、数据分析和系统研究(model、data、system)。再看研究内容,主要涉及岩石、年代、锆石、气候、海洋、水域、地幔、温度等(rock、age、time、zone、ocean、zircon等)。

最后,观察高频动词和形容词。在高频动词中,地质类词汇较少,只有melt和deposit两个,而其他高频动词都只是通用的学术写作用语,如form。作为修饰名词的形容词,我们能发现为数不多的形容词却与名词一起构成了地学领域的专业词组,如crustal deformation,the Late Cretaceous,global monsoon,tectonic environments,continental margins。

3.1.3. 地质英语一般性词汇特征总结

根据上述两节关于词汇密度、词长、词频的分析,最后总结得到图2的地质英语一般性词汇特征总结。

Figure 2. General lexical features of geoscientific English

图2. 地质英语一般性词汇特征总结

3.2. 地质英语词汇搭配分析

3.2.1. 地质英语词汇的提取

在3.1中生成的词频表及词形表只能代表该语料库中的高频词汇情况,要想进一步了解地学领域的高频词汇及其搭配,则需要提取并生成主题词表,亦称关键词表。这就需以GSEC作为观察和分析的语料库,以BAWE作为参照语料库进行对比,从而生成表7的主题词表(关键词表)。

Table 7. Keyword list of GSEC (top 30)

表7. GSEC语料库主题词表(前30个主题词)

根据生成的主题词表可以得到该词表主题词类符数共计2235个,其中有1768个为显著高频主题词(依据Keyness关键值而定)。通过分析这些关键词的词义,发现GSEC语料库中的语料以研究岩石、地幔、地壳、大地构造、海洋、变质、岩浆等为主。第一人称代词关键值表现出显著低频,因此体现了本语料库正式文体风格。再观察显著低频主题词,不难发现几乎所有的低频词都是常用普通词汇,只是作为表述摘要语篇所用,无法体现任何的专业性特点。由此,这1768个显著高频主题词通过整理后可以成为地质英语主题词表,用于地学专业词汇教学所用,也可以用于学生自学,从而有助于地质期刊论文的阅读和写作。

3.2.2. 主题词的搭配分析

学者在词汇研究中最关注的问题之一便是词汇的搭配问题。外语学习者如能很好地掌握词汇搭配,则将能在语言使用过程中找到恰当的表达方式 [3] (Nakhinovsky & Leed, 1979)。对于某一领域的期刊论文阅读与撰写,了解和掌握该领域的专业词汇搭配尤为重要,如果只知专业词汇基本意思而不了解其搭配,在论文撰写的过程中就会受影响,写出的论文将不够专业,语言表达不够地道,从而影响读者的阅读和理解。

本研究将通过从主题词表中选取具有地质专业特点的1个单词进行搭配上的分析,以作为例子和词汇自学方法提供给读者进行其余地质词汇的搭配分析和学习所用。

通过提取mantle左右各一列的搭配词表,检索得到174种词型,共计出现615次(表8所示)。通过搭配词表发现,除了常见的与名词搭配的the和of外,与mantle搭配最多的词为lithospheric、derived、source、lower。此外,根据共现语境(Concordance) (表9),mantle在语料库中只作为名词出现,意为“地幔”,且只以单数形式出现;而其作为动词的语法作用未在GSEC语料库中被使用。

Table 8. Collocates of mantle (top 10)

表8. Mantle的搭配分析(前10个搭配词)

Table 9. Concordances of mantle (KWIC) (partly)

表9. Mantle的部分语例(共现语境)

通过搭配和共现语境的分析可以总结得到表10,与mantle搭配的词主要是名词,且位于mantle右边,另有两个高频形容词derived和normalized用连字符与mantle相连形成复合词。

3.3. 地质英语新词词汇构成分析

新词的创造和表达主要通过复合构词法、派生构词法、发明法、混成法、缩写词、缩略语、逆构词法、词性变换、借用等9种主要方式实现。而地质英语词汇中同样充斥着各种新词,对新词构词方式的解析则有助于学习者理解和记忆新词的词义,因此,在此通过语料库检索分析对地质英语新词词汇的构成进行分析和研究。

Table 10. Collocation analysis of mantle

表10. Mantle的搭配情况

① 缩写法:也称截成法或截断法(clipping),即新的单词通过截取其中一部分而产生,如Ga来源于gallium。

② 首尾缩略法:借助这种方法产生的新词多出现于理工科文献或实验报告中,尤其是作为单位出现,如yr是指year。

③ 首字母缩略法:这是常见的一种缩略语构成方法,此法形成的新词一般代表某个组织机构,这种新词的产生主要源于原词(组)的复杂书写,通过缩略即达到了方便书写和记忆的目的,如RBL由Eological Boundary Layer缩略而来。

④ 合成法:也称复合法(compounding),即将两个词通过连词符号连接形成新词,合成后的词的词义也一般为两个原词的词义的合并。如形容词reef-building (造礁)、名词cross-fault (跨断层)、动词overachieve (完成得比预期要好)。

⑤ 词缀法:也称派生法(derivation)。主要通过添加前缀和后缀的形式新词。前缀的添加将改变该词词义,而后缀的添加将改变词性(词类)。如添加前缀后的新词:antiformal背形的(表否定)、ultraslow超慢速(表程度/尺寸)、polygenetic多成因的(表数量)、pre-deformation预变形(表时间/顺序);添加后缀后的新词:perturbation干扰、featureless无特色的。

⑥ 转化法:也称词性变换。即通过不改变词的形态的形式而改变其词类的方式,产生的新词与原词从形态上没有变换,但词类已经改变,词义也随之变化。此类构词法还可以称为零派生(zero-derivation)或变换(conversion)。如deposit作为动词指的是“沉积、存放”,但在GSEC语料库中作为名词出现,表示矿物的“矿床”。

⑦ 混合法:将两个单词的一部分合并成一个新词,所形成的新词主要是名词,这是词汇构造的重要方法之一。如biogeochemical (生物地球化学的)是由biological + geological + chemical构成。

研究表明新词的构建主要依赖于以上7种方法。根据统计学分析,合成法是构词中最常用的方法,通过两个或多个熟悉的词汇,合成一个新的词汇表达一个新的概念。词缀法是另一个被广泛使用的构词法,通过前后缀构词非常方便,也体现了地学英语的简洁性特点。缩略法常用于地名、机构、设备、模型等的名称。转化法和混合法在GSEC中使用较少。

总之,地学英语词汇从学科上来说,词汇较为集中于地学领域,专业性强。大量使用缩略词、合成词和带有前后缀的词,因此给本学科带来了一些专业性较强的新词,这也是地质英语学习者重点需要学习的词汇。

4. 结语

通过上述分析发现,地质英语词汇具有正式、专业、客观、复杂性的特点。基于语料库的地质英语词汇研究,得到以下几点启示,供地质英语词汇教学和地质研究人员参考。

首先,生成的GSEC主题词表可以用于学术英语教学,尤其是学生对这些高频词汇的自主学习,有助于学生学习地质英语关键词汇,也有助于地学专业学生科研论文的阅读和写作水平的提高,促进ESP教学的发展。

其次,根据GSEC,借助AntWordProfiler1.4.0w软件,对词汇进行分级处理,制定地质英语教学词表,为师生分级把握地质英语词汇提供材料。

再次,通过提取高频词的语境共现行,可制作教学微本,供地质英语词汇教学所用。

最后,通过分析主题词表的高频词汇,为学生和其他科研人员把握目前全球地学领域研究的热点问题提供参考。

基金项目

本文受中央高校基本科研业务费专项资金项目优秀教师基金项目(项目编号:2652018331)、中国地质大学(北京)教学研究与教学改革立项《基于慕课的大学英语翻转课堂教学模式研究与实践》(项目编号:JGYB201619)以及全国高校外语教学科研项目(项目编号:2018BJ0033B)资助。

文章引用

何春艳,朱 玲. 基于语料库的地质英语词汇特征分析
Study on Corpus-Based Lexical Features of Geoscientific English[J]. 现代语言学, 2019, 07(06): 870-880. https://doi.org/10.12677/ML.2019.76116

参考文献

  1. 1. 杜晓. 大学英语课堂教学语料库的建库原则、步骤及方法[J]. 外语研究, 2009(6): 61-63.

  2. 2. 何安平. 语料库辅助英语教学入门[M]. 北京: 外语教育与研究出版社, 2017: 20.

  3. 3. Nakhimovsky, A.D. and Leed, R.L. (1979) Lexical Functions and Language Learning. The Slavic and East European Journal, 23, 104-113. https://doi.org/10.2307/307804

期刊菜单