一、引言
语言学是一门既古老又年轻的学科,语言学的研究不只是理论和分析方法的创新。现代科学表明,研究方法和操作手段的更新往往成为理论发展的契机。语言学的研究需要收集、加工、处理语料,并强调语料的真实性和客观性。语言学研究的学者都能感受到语料处理方式和手段的重要性。
语言学研究者面对大规模的文本语料,要从这些语料中发掘新的语言规则或需要的信息,首要任务就是对大规模真实的文本语料进行加工、筛选。采用手工的处理方法对海量语料数据进行统计、分类、分析等操作,工作效率会非常低,而且劳动强度非常大。这也促使处理语言材料的工作方法和操作手段发生变化。数据库技术是一门数据管理自动化的综合性技术,数据库是组织、存储和管理数据的仓库。随着计算机技术的广泛应用和网络的普及,数据库在生产、生活、科技领域得到了广泛地应用和推广,在语言学研究中也表现出了强大的优势,已成为语言学家的重要工具。
二、数据库与语言学
数据库,顾名思义,就是存放数据的仓库。只不过这个仓库是在计算机存储设备上按一定的格式存放的,具有强大的数据组织、数据处理和数据管理能力。语言学研究的语料具有规模大、类型多、异构性、零散性等特点,使用数据库管理可以提高语言学研究者的工作效率。要想高效地使用数据库来存储、管理各种语言材料,语料库设计的首要任务就是对语言材料数据进行合理地定义,建立便于对数据进行加工、处理的语言材料数据库。数据在数据库中的定义包括定义数据存储的格式、数据的存储类型和数据之间关联关系。数据的定义是数据库使用的关键,好的定义可以方便用户对数据进行统计、检索和处理。数据库管理系统具有强大的数据定义功能,为语言学研究者提供使用数据库的可能。
数据库在语言学中的应用主要体现在对语言材料的加工和处理方面。数据库强大的数据定义功能为语言材料的存储提供了可能,更重要的是语言学研究者可以通过定义的语言材料对海量的语料进行加工和处理。数据库有强大的数据处理功能,语言学研究者可以通过多种操作方法获取语言材料信息,如筛选语料、语料排序、语料分类、语料统计和语料的更新等。譬如,何乐士的《<左传>虚词研究》中的文章大都写于二十世纪六十年代,当时主要靠手抄卡片积累资料、分析统计,这些工作何先生需要花费大量的时间和精力,几天甚至十几天才能获得结果,而现在研究者大都使用数据库或语料库,输入检索内容瞬间就能准确无误地得到结果。这也是数据库的最大益处,省时省力。
目前,随着计算机网络的普及和各种语言材料数据库的建设,使语言学研究者最大限度地占有语言资料成为了可能,充分体现了数据库的资源共享性。语言学研究也有不同的研究目标和语料需求,要想使数据库能够满足不同的主题需求,需要建立更加广泛的数据资源库。当然,语言材料的来源不同,类型不同,要让这些异构异质资源进行合理定义集成。语言学的研究需要现有的语言学研究成果,语言材料的数据库可以保证语言材料的可靠性,同时也可以满足语言学不断发展更新的需要,这也是数据库本身的特征。
随着计算机的发展,数据库在语言学中得到了广泛的应用,已成为语言学家的重要工具。利用数据库技术使其具有结构化、关系化、集成、稳定等特点,建立语言材料的数据仓库——语料库。语料库(Corpus)就是存放原始语言材料的数据仓库,就是一个由大量在真实情况下使用的语言信息经过科学的收集和组织而集成的专供研究使用的资料库。近年来计算机技术的发展,相关研究者和组织建立了广泛的语料库。
三、语料库语言学
语料库的设计需要大量真实语料的不断搜集、积累。所谓的语料库(corpus),就是存放大量事实语料的仓库。但严格定义的语料库,仅指“由大量收集的书面语或口语构成,并通过计算机储存和处理,用于语言学研究的文本库”。语言学研究者在语料库的基础上开展语言学研究。
“语料库语言学”反映两个层次的含义:一是语言学研究的一个新的手段,即利用语料库对语言学的某个方面进行研究;二是语料库反映出来的语言学的新观点和新理论,相当于语言学的一个分支,如社会语言学、语用学等学科。从现有文献资料看,大都将其作为语言学利用语料进行科学研究的一种新的手段。
(一)语料库的作用和发展
语料库是按照一定的语言学原则,对语言文本信息进行收集、加工、处理以电子计算机为载体承载语言知识的基础资源库。
传统的语言学研究是通过手工方法获取语言材料,任何语言学研究者都不可能记忆和处理全部语言数据。建立语料库后,可以快速地从浩如烟海的语言资料库中获取准确的信息。语料库最直接的用途就是为编纂字典提供大量真实准确的例句,例如,根据COBUILD语料库编写的词典就有7种。除此之外,Leech(1993)还列举了语料库进行语言理论研究、语法研究、语义研究、语篇分析研究等十几种用途。说明了语料库中的语料对语言学研究领域的重要性以及语料库对语言学研究领域的促进作用。
20世纪90年代以来,语料库的建设和研究迅速发展,规模从百万字发展到千万字、亿万字,语料加工的深度发展到篇章级,实现了语料库的定量分析、机器翻译、词典编纂等。如英国的COBUILD语料库,在该语料库基础上出版了语法、词典、英语教材二十多种。
汉语语料库的起步较晚,如北京语言文化大学的“现代汉语语法研究语料库”、北京大学CCL语料库和北语中介语语料库等。
(二)基于语料库的语言学研究
语料库已经成为语言学家研究语言学的强有力工具,基于语料库的语言学研究具有以下特点:
(1)语料的真实性:学习者语料库中的全部材料都是通过随机采样所收集的学生实际作文,是真实的语言运用。通过对学习者中间语的分析得出的结论都是有根有据的,是从实际出发的。我国的英语教学成绩很大,但问题也不少,只有通过对教学现状的科学分析、深入研究,才可能提出有针对性的、切合实际的改进方案,收到实际效果,避免无的放矢,避免无谓的争论。
(2)定量分析:基于语料库的研究,一个显著的特点就是数据驱动。计算机的存储和语言处理能力为观察语言包括学习者提供了以前难以想象的强有力手段,定量分析使描写具有客观性,通过统计推断也可以避免判断的主观性。数据驱动的定量分析使我们有可能看到以前凭直觉无法发现的问题。这些统计数据使我们有可能从量化的角度来探讨中国学生英语学习的特点。当然定量分析还必须辅以定性分析,才能为怎样学好英语提出切合实际的解决办法。
(3)群体分析:通过数据驱动的定量分析,我们还可以发现,有些言语失误是个别学生语言运用中的问题,是个体行为。有些言语失误则带有普遍性,是中国的英语学习者中普遍存在的现象,这就促使我们不得不认真研究其发生的原因。是因为母语迁移?还是由于过度概括?或者是出于教材或教学中的疏漏?只有找到了原因,才能找到改进教学的方法,提高教学质量。
(4)纵向分析:学习者语料库中收集了各个层次学生的语言产出,他们处于不同的学习阶段,有的是初学者,有的已经到了学习的较高级阶段,这样就使我们有可能对英语学习的发展过程进行纵向分析,看看哪些是初学者容易出现的言语失误,哪些言语失误到高级阶段就很少出现,而另一类言语失误的出现频率却又增加了,从而发现学习者中间语发展的规律。
(5)对比分析:所谓言语失误是指中间语中不合目标语规范的地方。有了学习者语料库,我们可以采用定量分析的方法,通过把学习者语料库与本族语者语料库进行对比分析,不但能够找出那些不合规范的地方,而且可以找出哪些语言现象过度使用(即超用)了,哪些现象又过少使用(即少用)了,这些都是凭经验和直觉很难发现的。
语料库为语言学研究者提供真实的语料、统计数据、现行理论的验证和构建新的研究理论,为语言学研究从高度抽象转向语言实际应用起到了非常重要的支持作用。
四、结束语
语言学的研究必须以语言事实为依据,详尽地、大量地占有语言资料。数据库的出现使得语言材料的收集、整理和加工从枯燥无味、费时费力的手工劳动中解脱出来,语料库已成为语言学研究者的重要工具。近年来,语料库已经逐渐从语言学研究的辅助工具逐渐演变为一门多角度分析语言现象的一个学科。这也反映了语言学研究领域的思想观念的更新和趋于科学性的发展趋势。
语料库的使用已逐步渗透到语言研究的各个领域,已成为自然语言研究者、词典编纂者和语言学研究者必不可少的研究工具。