一、词汇统计概说
词汇统计分析是对词汇使用进行量的描述,揭示词汇的各种统计特性,并可据此编成各种频度表或词频词典和常用词表,这对语言教学、语言研究和信息处理都有着较高的实用价值。从词汇研究的角度来看,词汇统计研究已有很长的历史了。一般认为,近代大规模词汇统计始于1898年,德国学者F.W.Kaeding编制的世界上第一部频率词典《德语频率词典》。大规模地使用概率和统计方法研究文学词汇以1944年英国数学家G.U.Yule发表的“文学词语的统计研究”为标记。在此之后,1949年,法国学者R.Michea提出建立“统计词汇学”。1965年,德国学者R.D.Keil把词频统计与现代统计学结合起来,提出了“词汇计量学(lexicometrics)”。
我国语文教学中有着编选字表的传统。《千字文》(1000字)、《三字经》(1248字)是古代汉语教学的重要素材。黎锦熙在1922年发表的《国语基本语词的统计研究》(《国文学会丛刊》1卷1号),是现代意义上的字频统计分析。
解放以后,中央和地方的教育部门陆续公布了一些基于频度统计的字表和词表。其中教育部和国家文字改革委编选这字表或词表有《常用汉字登记表》(1017字,1950年)、《常用字表》(2000字,1952年)和《普通话三千常用词表》(3000词,1962年)。其编写目的是为了推广普通话、普及文化知识,编写识字教材,避免汉语教学大纲设计和教材编写的主观盲目性,提高教学效率。
70年代中期以来,随着计算机处理非数值信息技术的日益提高,汉语词汇统计也逐渐采用人机结合的办法,利用计算机进行自动统计分析,提高了统计的效率和规模。1976年中国“七四八”工程查频组首次利用计算机对汉字的频度进行统计,生成《现代汉字综合使用频度表》,为中文信息处理的国家标准GB2312-80《信息交换用汉字编码字符集———基本集》提供了科学的基础数据。
1982年11月北京航空航天大学等10个单位承接国家标准局下达的“现代汉语词频统计工程”任务。此后,北航又受中国文字改革委员会的委托,从3亿汉字的素材中抽取了1108万字的样本进行计算机统计处理,于1985年3月通过了国家鉴定。统计结果编成《现代汉语用字频度表》。这是我国规模最大、分科最多的一次字频统计工作。1988年,国家语言文字工作委员会在此基础上制定了《现代汉语常用字表》,选取使用频度高、学科分布广、构词能力强的2500字作为常用字,频率及使用度次之的1000个字则定为次常用字。
2008年国家语委发布的《现代汉语常用词表》,收录词语共56,008个。包括单音节词3181个,双音节词语40351个,三音节词语6459个,四音节词语5855个,五音节和五音节以上词语162个。
然而迄今为止,国内对作家进行的词汇统计分析的报道罕见。值得一提的是武汉大学语言自动处理研究组于1976年用计算机对《骆驼祥子》进行的字频统计,经计算,该书总字数为107306个,单字2413个,这在一定程度上揭示了该小说的用字特点。
二、词汇统计材料与方法
鲁迅先生一生写了33篇小说:《呐喊》14篇,《彷徨》11篇,《故事新编》8篇。本次统计选用的是《呐喊》(含“自序”)与《彷徨》,原因有两点。一是希望分析用语料的选用与《鲁迅小说汉英平行语料库》内容同步,更重要的是《故事新编》是鲁迅先生在不同时期根据远古神话和历史传说写就,故未包含在本次分析语料之中。在本文,“《鲁迅小说》”是指鲁迅在《呐喊》和《彷徨》所写的内容。
对比语料采用的是北京语言大学汉语国际教育技术研发中心所提供的《汉语常用词词频表》(简称为“《北语词表》”)和《汉字字频词典》(简称为“《北语字表》”),以作定量对照分析。语料采集的方式是对《呐喊》和《彷徨》两部小说集作扫描处理,以PDF格式存储;ABBYY软件作文字识别(OCR),经校对修正后,形成电子文本;用中国科学院计算技术研究所张华平博士研制的汉语词法分析系统ICTCLAS整合版(2008)进行两种形式的中文分词:有标记分词和无标记分词。
有标记分词用于进行词性统计,而无标记分词用作词频分析。
采用日本早稻田大学Laurence Anthony教授开发的antconc,对《鲁迅小说》用字和无标记分词进行字频与词频统计(结果见图1与图2),并将统计结果导入excel与北语两表进行整理比较。
三、字表与词表统计分析与比较结果3.1字表统计与比较:
《鲁迅小说》总字数(tokens),据antconc统计,为122,971个(不含标点),单字(types)3051个。频度最高100字依次是:“的、了、一、是、不、他、我、有、在、来、也、这、人、说、着、子、里、上、去、大、得、然、到、个、么、们、看、时、便、就、那、而、还、又、出、没、你、要、道、但、自、她、都、家、和、只、见、起、地、为、下、头、以、可、阿、过、于、天、小、面、很、却、后、老、想、样、回、知、多、生、之、什、好、些、已、己、中、眼、经、走、前、两、似、事、太、年、四、所、心、声、几、十、从、三、吃、无、手、话、气、对”。
《北语字表》字频累计总字形数为71,632,779个,单字5499个。频度最高100字依次是:“的、一、他、我、是、了、不、在、这、人、她、有、个、们、来、你、到、上、说、那、着、地、子、里、就、时、得、么、为、要、可、也、过、去、和、大、会、出、下、道、以、看、对、没、自、样、想、把、好、起、生、后、而、然、能、中、都、心、斯、还、事、什、天、小、尔、只、面、开、家、些、从、头、情、儿、手、种、发、意、于、多、但、话、很、现、己、当、如、前、又、所、走、身、之、回、知、特、用、无、经、已”。
《鲁迅小说》频率最高的前10字:“的、了、一、是、不、他、我、有、在、来”占《鲁迅小说》全部语料的18.68%;前100字占53.4045%。《北语字表》频率最高的前10字“的、一、他、我、是、了、不、在、这、人”占全部语料的17.46%;前100字占48.92%。两词表频度最高10字相同率80%,而前100字两者的相同率为83%,即83个字共同出现在两表中。其中各有17字为对方所缺。
《鲁迅小说》前100、字中独有的17字为:“眼、便、吃、几、见、老、两、年、气、却、三、声、十、四、似、太、阿”;《北语字表》独有的17字为:“种、当、儿、尔、发、会、开、能、情、如、身、斯、特、现、意、用、把”。《北语字表》收字5499个,其中2491个未被《鲁迅小说》使用;《鲁迅小说》用字3051个,未被《北语字表》收录的有42字:胤、秕、髀、孛、鹁、猹、淝、镄、苻、祓、喤、楫、鶺、桕、髁、哙、圹、馗、髡、醴、鸰、熳、伲、钕、恧、荠、蓐、殳、姒、凇、窣、佟、抟、仵、怃、窸、羲、祆、獬、砉、魆、荸。
3.2词表统计比较
本次分析所比较的是《北语词表》和经ictclas分词所生成的《鲁迅小说》词表中的双音节以上的词,未包括单音节词。原因是《北语词表》对单音节词的频数标记统一为“0”,无法取得定量数值,只能舍弃。《鲁迅小说》词表中单音节词为2297个;《北语词表》中单音节词为2628个。双音节及以上的词数与比例,见表1。
【表1】
《鲁迅小说》词表中非单音节词的总词形数(tokens)为28176个,词类数(types)6879个;出现频度最高的100词依次是:“没有、一个、什么、知道、他们、自己、起来、已经、我们、因为、然而、时候、觉得、似乎、现在、这样、而且、似的、看见、孩子、于是、可以、虽然、所以、有些、许多、仿佛、之后、东西、眼睛、怎么、终于、那里、后来、女人、还是、大家、母亲、忽然、一定、这里、但是、先前、以为、自然、那时、大约、声音、下去、可是、或者、一点、人们、出来、辫子、立刻、一般、太太、老爷、还有、一面、忽而、这些、听到、实在、怎样、家里、脸上、仍然、渐渐、第一、里面、回来、一样、至于、你们、儿子、高兴、不过、应该、出去、慢慢、接着、今天、同时、第二、这么、那么、意思、太爷、本来、嫂子、就是、屋子、说道、只是、非常、中国、其实、只有”。
《北语词表》中非单音节词的累计总词形数(tokens)为66169729个,词类数(types)55061个;频度最高的100词依次是:“中国、发展、我们、经济、新华社、工作、国家、问题、一个、人民、他们、企业、进行、生产、国际、同志、记者、全国、技术、建设、北京、领导、我国、美国、这个、政府、改革、会议、社会、干部、一些、本报、今天、群众、地区、没有、世界、关系、自己、组织、社会主义、部门、研究、今年、解决、管理、代表、思想、政治、方面、教育、举行、情况、要求、去年、公司、政策、这些、第一、可以、参加、提高、生活、有关、市场、产品、重要、文化、活动、人员、主席、苏联、日本、认为、中央、加强、单位、提出、通过、合作、现在、农民、总理、计划、这样、历史、需要、目前、两国、农业、主要、就是、工业、增加、许多、报道、科学、农村、不能、委员会”。
使用频度最高100词中,两表共有13词:“自己、今天、可以、没有、他们、我们、现在、许多、一个、这些、这样、中国、第一”。相同率为13%,大大低于两字表最高100字的相同率。
从词性看,《北语词表》100词的名词与动词为主,合计占81%;而《鲁迅小说》词表100词中,如表2所示,名、动、代、副、连五类合计占81%。若按照一般语法分类,把时间、方位词和处所词归为名词,那么,《北语词表》100词主要为名词、动词和代词3类,而《鲁迅小说》词表主要是名词、动词、代词、副词和连词5类。
【表2】
3.4《鲁迅小说》词表词性分布
据antconc统计,《鲁迅小说》用词总词形数(tokens)为92066个,词类(types)为9176个,其中单音节词为2297个。总体语料中的词性分布(见表3)与前100词趋同,前5类依次为动词、名词、副词、助词和代词。
【表3】
四、结果与讨论
本研究运用多种文本处理和分析工具,对鲁迅小说所用字和词进行了定量统计,并将结果与北京语言大学的相关语料进行了对比。从高频字看,两种语料虽形符数(tokens)差异极大,但相同度高达83%。不论语言作品的内容如何或数量多少,高频字是语言的基础要素。100个高频词在两种语料中覆盖率均在50%左右。
从高频词看,两类语料的差异显著。100词中,两表共有仅有13个,相同率大大低于高频字。这种差异因语料来源差异所致。从高频词内容看,北语语料来源于政论与新闻,时事性、社会性与国际性突出,尤其是“苏联”一词,反映了90年代以前时政语言的面貌。鲁迅小说属文学语言,充满动感,描述性和口语性显著。两者在词汇选择上的巨大差异是显而易见的。
从词性分布看,开放性词类数量使用总是居前。有研究指出,数量居前三位的是名词、动词和形容词三类,占总词频的48%。本统计结果表明,鲁迅小说中,名词、动词和形容词三类占总词频数的接近48%,但是数量在前三位的依次是动词(25.23%),名词(17.54%)和副词(13.00%),三者覆盖全部语料的55.77%。若按照一般语法分类,把方位词(2.23%),时间词(1.26%)和处所词(0.59%)归为名词,顺次未出现变动,而覆盖率则接近60%(59.85%)。排在这三者之后的是助词(9.54%)和代词(8.78%),其后是,形容词(5.23%)。
出现这种差异的原因在于,政论与新闻文体重点在状态、事实、说理和过程,以静态书面语为主,名词使用频度高;而小说充满动感,动词使用频数要高于名词。形容词是名词的修饰语,而副词以修饰动词为主,自然会随着修饰对象使用的增加而增加。但是,本次分析所发现的这种现象,是普遍性还是特殊性,尚需进一步研究。
五、问题
本文首次对鲁迅小说字词进行了统计分析,并用相关字与词语料进行了对比,具有抛砖引玉的意义。在研究过程中发现了一些需要改进的问题。字频与词频统计要分别进行字的切分和词的划分。前者操作简单,只要用任何文本处理工具都可以完成,不需人工干预。而词的划分或分词,只有依赖专门的工具软件,才能实现。若人工操作,标准难以统一。
本次研究采用汉语词法分析器(ictclas),由中国科学院计算所开发,主要采用北大《人民日报》语料库进行参数训练,词性标记集主要以北大《人民日报》语料库的词性标记集为蓝本,并参考了北大《汉语语法信息词典》中给出的汉语词的语法信息。因此,用非小说文件进行参数训练的分词工具用于鲁迅小说语料分词,误差率就不可避免地会提高。理想的做法是,可针对性地用专门的语料进行训练,形成自带词典,然后进行分词,会大大降低误差率。尽管认识到误差,但本统计分析对误差未作调整,目的是使研究具有可重复性,以求证实或证伪。
其次,对照语料选用的是北语语料。尽管统计分析结果显示文学类与非文学类语料之间在字频和词频方面的异与同,但是,若能选用同时代或不同时代典型作家的语料进行对比,则更能突显鲁迅小说遣词用字的特点。
参考文献:
[1]冯志伟.数理语言学[M].上海:知识出版社,1985.
[2]刘云.汉语词汇统计研究述评[J].汉语学习,2009.
[3]杨奔.20世纪的现代汉语词汇统计研究[J].玉林师范学院学报(哲社版),2002(1).
[4]刘群,张华平,张浩.计算所汉语词性标记集[EB/OL].
[5]王惠.汉语词汇统计研究[EB/OL].
[6]《现代汉语常用词表》课题组.现代汉语常用词表[Z].北京:商务印书馆,2008.
[7]杨坚定,孙鸿仁.鲁迅小说汉英平行语料库[EB/OL].
[8]汉语国际教育技术研发中心(a).汉语常用词词频表[EB/OL].
[9]汉语国际教育技术研发中心(b).汉字字频词典[EB/OL].
[10]ABBYY开发组.
[11]张华平.ICTCLAS汉语分词系统[EB/OL].
[12]Anthony,L.AntConc3.2.4w[EB/OL].
[13]苏新春、杨尔弘.2005年度汉语词汇统计的分析与思考[J].厦门大学学报(哲社版),2006(6).