一、引 言
当代语言研究注重语言材料的真实性,而计算机技术在语言研究中的应用更是给我们提供了分析大规模语料的可能,可以说当下的语言研究已经不是“例不十,不立法”( 黎锦熙,1924: 4) 的时代。大规模真实文本的分析可以为我们提供更多的关于某个语言项目的信息,这既体现在质上,也体现在量上,也就是说,通过语料库分析我们不仅可以发现某个语言项目的其他用法,而且可以计算出某个义项、某个用法出现的频率。概率是语言系统的基本内在属性( Halliday,M. ,1991: 30- 43) ,通过相关数据的统计可以为词典编纂、语言教学等学科提供可靠的材料。D. Biber 通过Longman Lancaster 语料库对 DEAL 的调查发现在某些已出版的词典中排在后面的义项“数量”( 分别是第 16、第 21 条释义) 是其最常见的义项; 发现了“big deal”表示“不重要”这个未被辞书收录的常见用法; 在被调查的五部词典中都认为“发牌”是名词 DEAL 的词义,但是在这项调查中却没有出现( Diber,D. ,Finegan,E. ,1991: 204 -220) 。可见,语料库统计的方法总能发现一些传统研究没有揭示的情况,这对传统的研究是一种挑战,当然也是推动语言研究走向深入的一股新的力量。
以往在谈到词汇习得、学习词典编写的时候,学者们谈到的大多是实词,所以相对来说实词在这方面的研究比较多,也比较成熟,但是汉语水平到了中高级阶段之后,虚词就是学习的难点和重点了,不过相关的虚词研究却比较单薄。通过五部用法词典对“就是”处理情况的调查,本研究以“就是”为例,采用“解剖麻雀”的方法探讨大规模语料库在虚词用法词典编纂中的应用问题。我们调查的五部词典分别是: 《现代汉语八百词》( 商务印书馆,1980,以下简称“吕本”) 、《现代汉语常用词用法词典》( 北京语言学院出版社,1995,以下简称“李本”) 、《现代汉语虚词词典》( 北京大学出版社,1999,以下简称“侯本”) 、《现代汉语虚词词典》( 商务印书馆,2001,以下简称“张本”) 和《现代汉语虚词词典》( 语文出版社,2007,以下简称“朱本”) 。
二、五部词典对“就是”的处理分析
本部分我们首先在大规模语料库统计的基础上调查“就是”的相关用法及其使用频率,然后结合统计数据调查分析上述五部词典对“就是”的处理,最后指出现有用法词典对虚词用法处理的不足之处。本文用到的现代汉语语料来自北京语言大学的“现代汉语语料库系统”( 200 万字) 和中央电视台《实话实说》栏目 12 期节目录音的转写文本( 10 万字) 。
( 一) 语料库统计分析
通过对封闭语料库的检索,共得到有效语料 674 例。按照功能类型,我们将“就是”分为加强判断、限定、情态、关联和话语标记五大类,它们在语料中的具体分布请参看表 1。【表1】
从表 1 我们可以发现,其中有 38 例( 占语料总数的 5. 64%) 很难具体说是上述几类中的某一类,而是具有上述类别中至少两类的特点,我们称之为“边界模糊类”,这类“就是”处于演变之中,是“就是”在共时平面的变异,此处我们暂不讨论。另外,就词性而论,表“加强判断”时“就是”为短语,即副词“就”加判断动词“是”,一般辞书不收录短语,故本研究不详加讨论。
就其虚词词性所表达的功能来说,关联功能是“就是”最主要的功能之一,所占比重 31. 45%;其次是限定功能和情态功能,分别为 16. 47%和 14. 54%; 最后是话语标记功能,所有表示话语标记的用法仅有 5. 93%之多。可见,“就是”在现代汉语共时平面上的功能分布是不均衡的,即其功能有主次之分。其中表“关联”、“限定”和“情态”功能的用法比较复杂,表 2 展示了这几类用法的详细情况。【表2】
( 二) 统计数据与现行词典处理情况对比分析
据调查我们可以发现,“就是”作为话语标记表示“确认、同意”的用法在“吕本”、“李本”、“侯本”和“朱本”中都是作为第一个用法呈现的; 而据我们的统计,这个用法只有 8 条语例,占总语料的 1. 19%,可见把该用法收录进来并且作为第一个义项呈现显然是不符合其实际使用情况和学习者习得规律的。
根据我们的研究,“就是”的关联功能是其使用频率最高最常用的功能( 31. 45%) ,其中“解说”、“让步”、“转折”和“并列例举”是关联功能相对高频的用法( 所占比例分别为 33. 49%、27.83% 、13. 68% 、10. 38% ) 。我们来看一下上述五部词典对该用法的处理,这五部词典都在最后一个义项收录了“让步”的用法,另外“朱本”收录了“转折”的用法,而频率排在第一位的“解说”却没有任何一部词典予以收录。“侯本”收录了“并列例举”的用法,但却误收在了“肯定事实”的用法下面。
限定功能是“就是”除加强判断功能( 该功能在语法属性上为短语,故不详加讨论) 外的第二高频用法,“限定动作行为”最为高频( 57. 66%) ,其次是“限定主语”、“限定上文”、“限定宾语”,此三者相差不大。“朱本”未收录该用法,其他几部除了“侯本”把此用法排在第二项之外,其他几部均排在了第三项。“李本”没有收录“限定上文”和“限定宾语”的用法和“张本”未收录“限定上文”的用法。另外,只有“李本”和“张本”把“限定动作行为”排在了该用法的第一项。
“就是”作为虚词的第三项高频功能是其“情态”功能。其中句尾情态只出现了 5 例,占 0.74% ,故句尾情态功能是其非常用用法,针对第二语言学习者来说并不需要把这个用法也呈现在词典上。“张本”把句尾情态作为第一项用法收录,“侯本”也收录了该用法。
下面我们来看相对高频的句中情态功能。根据我们的调查,“朱本”和“张本”没有收录句中情态功能。“吕本”、“李本”收录了“肯定态”、“意愿态”和“大量态”,“侯本”收录了“意愿态”和“大量态”。据统计,“肯定态”和“意愿态”是该功能的主要用法( 所占比例分别为 56. 99%、36. 56%) ,而“大量态”是很低频的功能。另外,“吕本”和“李本”收录了“动作行为迅速果断”的用法,而这类用法在我们的考察中并没有出现。
( 三) 现行词典的不足
根据以上分析我们可以发现现行词典中存在以下几个问题:
第一,该收不收。这类问题指的是某用法是某个语言项目的高频用法却没有被收录到词典中。譬如,关联功能中“解说”和“转折”用法收录的缺失; “限定”功能在“朱本”中的缺失; “句中情态”功能在“朱本”和“张本”中的缺失,高频的“肯定态”在“侯本”中的缺失。
第二,不该收而收。指的是有些用法是某语言项目的非常用用法,却收录在了词典中。比如,“就是”作为话语标记的用法被“吕本”、“李本”、“侯本”和“朱本”作为第一项用法收录,而该用法是非常低频的一个用法; “句尾情态”功能只占语料的 0. 74% 却被“张本”作为第一项用法收录,“侯本”也收录了该用法; 用在句中表示“动作行为迅速果断”在我们的考察中根本没有出现却被“吕本”和“李本”收录。
第三,错收。“侯本”错把“并列例举”的用法收在了“肯定事实”的下面。
第四,排序不科学。不考虑学习者的习得规律,排序随意性大,不科学。例如,“关联”是功能“就是”最高频的功能却被排在了最后; “限定”功能是其第二高频功能却被大多数词典排在了第三项; 另外,具体到一个功能内部小类用法的排序也是这样。
由此可以看出,这五部用法词典尚不能全面反映“就是”的用法,在多个用法排列的顺序上也存在比较大的问题。
三、语料库与虚词用法词典编纂
本研究认为语料库在虚词用法词典编纂中的应用应注意以下几个方面。
( 一) 语言事实的发掘
编写词典要依据语言事实这是众所周知的,也是词典编纂的最基本原则之一。但是语言事实从哪里得来? 以往的词典编写大多是基于编写者个人的语言感觉,然后再通过报刊等书籍中的用例加以佐证。用这种方法得来的例证相对来说问题比较多,其一数量比较少,其二不够全面。这样一来,编纂者对语言事实的发现就会存在问题,最突出的问题是得出的语言事实不够全面。比如,上文我们提到“就是”的“解说”、“转折”等用法在所考查的五部词典中的普遍缺失。这一现象就是对语言事实发掘不充分的具体表现之一。
随着计算机技术的发展,现在我们已经完全有可能占有大规模的语言材料,并且计算机可以在语言材料分析中提供帮助,虽然人工干预仍然不可缺少。虚词用法词典的编写一定要借助语料库技术,只能这样才能把每个虚词的用法尽收眼底,才能避免“该收不收”的失误。“错收”的出现也与语言事实发掘不足有关,譬如“侯本”误把“并列例举”的用例收在了“肯定事实”的用法下面,如果有足够的语言材料和实用的分析技术,我们认为编写者完全有能力辨别、析取不同的用法,是不会把一个用法的用例错收在另一个用法下面的。
( 二) 关注词语用法的频率
没有大规模的语言材料统计是谈不上频率问题的,所以我们调查的几部词典中出现的问题多与频率有关。虚词用法词典编写中频率的应用牵涉到两个问题。
第一,收与不收的问题。虚词大多不止一个用法,也就是说虚词基本都是多用法的,在这些用法中哪些用法该收,哪些用法不该收,这与频率有很大的关系。根据学习者的习得规律,他们最应该学习的是那些在目的语中高频出现的,这是必须要收录的; 而本族人都罕用的用法则不必收录。譬如我们在上面发现的高频用法“解说”和“转折”收录的缺失、“限定”功能在“朱本”中的缺失、“句中情态”功能在“朱本”和“张本”中的缺失、“肯定态”在“侯本”中的缺失等都没有注意频率问题,更没有充分考虑使用者的需求。
第二,如何排序的问题。收录了一个虚词的多个用法,那么这些个用法如何排序也是频率要管的。通常来讲,频率高的应该排在前面,频率低的排在后面,这对各个大类用法的排序以及各大类内部小类用法的排序都适用。比如,上文所谈到的高频的“关联”功能被排在了最后; “限定”功能是其第二高频功能却被大多数词典排在了第三项,这些问题的出现也是没有充分考虑频率原则。
( 三) 及时吸收基于语料库的虚词研究方法及成果
近年来,随着语料库技术的发展,学者们的语言观念和研究方法都在发生着变化,一个最明显的变化就是基于语料库的语言研究成果逐渐增多,虚词的研究成果也在逐渐增多,这值得我们借鉴吸收。我们不但要借鉴吸收其研究成果,也要注意基于语料库的虚词描写方法,后者或许比前者更为重要。
总之,虚词用法词典的编写要充分发挥大规模语料库的作用,确保每个虚词的用法得到充分描写,注重发掘语言事实、注重统计数据在词典编写中的使用、注意吸收基于语料库的虚词研究方法和成果,只有这样才能改进现行虚词词典编纂的不足。
参考文献:
黎锦熙: 《新着国语文法》,北京: 商务印书馆,1924 年。
侯学超: 《现代汉语虚词词典》,北京: 北京大学出版社,1999 年。
李忆民: 《现代汉语常用词用法词典》,北京: 北京语言学院出版社,1995 年。
吕叔湘: 《现代汉语八百词》,北京: 商务印书馆,1980 年。
张 斌: 《现代汉语虚词词典》,北京: 商务印书馆,2001 年。
朱景松: 《现代汉语虚词词典》,北京: 语文出版社,2007 年。