文学多功能计算机自动检索系统研究

来源：学术堂作者：韩老师
发布于：2015-07-29 共3907字

　　我国的网络技术正在向世界先进国际的技术不断靠近，新的信息技术已经推动了众多领域的变革，利用计算机对文献进行信息检索是当今信息时代提高工作效率的重要方式。

　　尤其在文学文献检索的应用上，更是体现出了获取信息量大、检索的速度快、准确性高、效率高的特点，这种检索方式已经彻底颠覆了人工书本式检索方式。网络的飞速发展，文学检索的方式由此也变的十分简单，因为互联网资源融合整个世界的文学资源，中外文学作品被收入到网络这个能够实现共享的空间，只要通过网络就能查找到自己想要得到的资源。近年来，我国开始对计算机检索功能进行开发和研究，在很多领域均取得了较好的效果，但是，对于文学艺术类的资源进行检索功能的开发仍然处于一个初步发展的阶段。但是，我国深圳大学率先开展了这方面的工作，他们研制出来的多功能计算机自动检索系统，经过实践和应用，取得了非常好的成果。笔者在此文中就以该系统对古典文学作品《红楼梦》所获得效果为参照，对文学文献的检索应用做一个探讨。

　　一、自动检索系统对文学文献检索的效果

　　我国合肥大学和深圳大学的中文系先后与上个世纪 90年代后期开始进行计算机自动检索系统的研究工作，从事系统研制的科技人员在文学文献的选择上确立了较为复杂的古典文学作品，经过认真选择，研究人员认为，在我国古典文学作品中，曹雪芹的《红楼梦》，涉及的人物众多，语言的应用具有丰富性，其中有医学，教育。诗歌音乐、绘画等等的内容，以小说《红楼梦》研究为蓝本，对于体现计算机自动检索系统的实际应用效果和稳定性具有一定的代表性，从而可以为进一步对语言、文学以及其它文化学科的研究提供重要的参考资料。实验表明，研究者使用文学文献检索系统对小说《红楼梦》进行检索，可以在五分钟的时间内筛选到 150-180 个专题范围内的相关内容。就小说中的语言词语的检索，这个系统可以筛查到小说作品中任何一个四字格成语、其中包括作品语言使用的介词、量词、副词、助词、连词等出现在那个章节和回次、同时也可以准确到这些词出现在那个页码和第几行。检索系统还能够显现出这些成语和词语在整部作品中出现的次数，同时还会检索出词语所处的语言环境。这些检索的信息呈现在人们的面前，显然对人们就词语或者成语在小说中表达的意义有一个认识，这种检索方式便于研究者对作品进行深入分析。对于小说中检索出来的信息，以及使用特点的研究，会有利于对我国近现代语言的研究、有利于对作家语言的研究，在此基础上，各类语文词典的编纂工作也将变的得心应手。研究者还就单字和分词类进行了检索研究，例如将小说《红楼梦》中含有介词的“将”和“把”两个介词搜索出来，对由这两个字组成的句子找出来进行分析，系统总共在整部小说里搜到带有“把”字的句子 1000 多个，含有介词“将”字的句式有 86 个。在小说的前八十回的检索里，两种句式检索结果基本是一致的。《红楼梦》的后四十回中，使用“将”字的句式远远落后于“把” 字句的使用频率。这就可以判定小说在写作时间上有很大的差异，通过语言检索，我们也能够体会到小说语言风格不同，对小说创作者的认识上存在疑虑，因此有的研究者会认为，小说的完成不仅仅是曹雪芹一个人。通过前八十回“把”字句式的使用与后四十回出现的频率非常少的实际，加上语言的风格分析，就足以说明，小说《红楼梦》前八十回的语言特色要比后四十回丰富生动很多 .

　　在文学研究方面，通过检索修辞手法的应用，发现在《红楼梦》中常用的体例。例如小说中的各种事物描写、段落如何划分，文学人物出现的时间，所有人物出现在那种场合，包括作家所做诗词的体现在那个章节里，都有明确的指示。像小说中人物的外貌描写，可以区分为体态、面相、神情、习惯性动作等多个小类，对人物的心理描写上可以区分为欢喜、哀伤、愁苦、愤怒、讨厌等多个小类型，在检索关于爱情描写方面的对象是可以发现贾宝玉和林黛玉、柳湘莲和尤三姐。女仆红玉和贾芸、袭人与贾琏、司棋和潘又安等多个小类。从这些划分开来的小类型来进行检索，不仅能够有效区分小说当中的各类描写，同时可以按照序列让检索这进行有效地归类。让文学文献检索方法更有接近性，满足教学和学习的需要。更重要的是，通过这样归类型检索，我们就能从文学角度对《红楼梦》这部作品进行深入的分析和研究。

　　二、小说《红楼梦》为文学文献检索提供了参照

　　在古典小说《红楼梦》中，基本上涵盖了中国古代的历史文化、生活情状。在小说中，有关生活方面的描述无所不及，体现在园林方面的，通过检索系统的检索，就会检索到亭台楼阁、院落、房屋、花草树木、门柱对联的相关资料；关于小说作品里所有人物的穿戴和服装，服饰方面的内容我们在书里可以查找到各种裙子、袍子、各种色彩的袄和坎肩，其中有人有裤、靴、带、冠的资料；由于小说描述的是贵族大户人家。因此对饮食的叙述语言也很多，在小说里，可以检索到与饮食有关的酒、菜、汤、粥、糕点等很多的词语资料等等。通过文字语言的检索，不仅能够使各种类型的语言检索出来，而且通过计算机自动检索、分类、整理，经过计算机屏幕的显示，将所有检索到的资料自动打印出来，这就是计算机检索的一个大概过程，也是人通过计算机对中国古典文学进行的综合研究。河南省济南市科委和北京理工大学计算机学院进行联合，构建起了计算机《红楼梦》数据库系统，通过两方人员的认真研究和实践，实现了对古典名着《红楼梦》的各个层次、各个类别的检索；其中的男性人物和女性人物检索，各种生活用品的检索，小说作品的事件检索，诗词歌赋的检索，习惯用语的检索等等，同时在数据库中输入了小说中的 525 位人物的全部档案资料。通过大量的工作，文学文献的检索工作不仅全部实现了对作品的归类，而且在检索中还发现小说当中存在的两个为被人发现的两个“谜局”.

　　第一个被检索解开的就是人物的年龄“谜”. 许多研究红雪的学者一致对林黛玉进入到贾府是多大年纪有争议，究竟是 13 岁还是 11 岁、是 9 岁还是 8 岁一时间说不清楚，研究者通过将这些说法都输入计算机，经过逐条筛选分析，最终确定林黛玉进入到京城的贾府时时 9 岁。第二是揭开了“怡红夜宴图”的谜团。实际上，在一百多年的时间里，这幅图一直在困扰着红学家，对于参加夜宴的究竟有多少人，每个桌子上坐着几个人，还有就是在宴席上的人怎么排定座次。河南省济南市科委编制出一套完整的程序，用计算机模拟出了小说《红楼梦》中“怡红夜宴图”所描绘的所有类别，用检索的办法解开了参加夜宴人数和宴席座次排列的谜底。

　　三、文学文献自动检索系统的逐字检索效果

　　由于文学作品的内容繁杂，因此，对文学作品进行检索系统的研究，不仅可以提升检索的实际应用效果，同时可以得到较为有效的数据参照，以利于多文学作品的研究。中科院语言研究所在对检索系统的研究中，将唐代无名作者的诗集《寒山子诗》列入到逐字检索系统研究，分门别类对各类语言词语进行数据化处理，同时，在总结成果的基础上，对《寒山子诗》的全部作品进行了逐字索引编制，总结出来的结果是：全书共收录的诗歌是 365 首，可以检索确认的总字数为15591 个。关于在《寒山子诗》的诗句的检索方面，研究者将诗歌划分出三言诗、五言诗和七言诗这三个类型，在进行汉字词语检索时，我们可以按照每个字或者一个词分别出现在三言诗、五言诗和七言诗中的不同情况，作出汉字使用特点的判断，对研究古代诗歌有重要的参考作用。尤其是对文学创作或者文学学术研究者来说，这种检索的作用为他们的创作和研究提供了方便。

　　四、检索系统对其他类型文学作品检索的参照

　　对文学文献的检索已经逐渐得到了人们的认可，这种简单、快捷的检索方式，为人们的工作和学习提供了方便。武汉大学的中文系与计算机系进行联合研制计算机文学文献检索系统，目前已经进入到更高层次的研究，通过对《红楼梦》等 3 部文学名着进行语言自动检索处理，已经掌握了较为完善的技术，经过应用，现阶段已经对曹禺的《雷雨》、老舍的《骆驼样子》、矛盾的《子夜》和赵树理的《三里湾》等 10 位中国着名作家的作品，进行语言文字处理系统的构建，经过研究者对这些小说作品的自动检索功能研究，让文学作品的检索功能进一步得到了完善，凸显了检索系统的先进性：

　　第一个显性的效果是，通过对作品的自动检索，将存入数据库中的作品总字数和标点符号总数给出准确的统计结果。第二个是计算机自动检索系统能够对作品不同单字在作品个个章节中出现频度作出统计。第三是检索系统在检索完成后，会自动编辑全书的单字频度表。第四是按汉语拼音音序对不同单字音序作出自动编辑并作出索引。第五是在检索完成之后，通过利用自动编辑软件，对最能中不同单字部首编辑出索引。第六是在索引过程中对全书的不同单字进行逐字索引的自动编辑，主动标注出各单字在作品行文中出现在那个页码和行数。第七个方面就是利用文学文献检索系统，对作品中的任意字、词组等全部句子进行检索，并且将检索的结果再通过计算机以卡片形式输出。

　　目前，我国的图书出版领域和文学文献编辑领域已经全面适应了检索系统，尤其是文学研究部门，面对浩瀚丰富的文学作品海洋，如果应用检索系统，就能够针对文学作品的相关知识进行检索，从中找出作品的语言应用、字词搭配、词语调配等的特点，既能够体现出文学作品的语言特色和风格，又能为小说的内容作出评价。由此可见，中国的文学检索与研究应用计算机技术，无疑是为研究工作奠定了坚实的基础。

　　[参考文献]

　　[1] 姚兆炜。在微型计算机上对《寒山子诗》实现逐字索引。中国语文，1989（12）。
　　[2] 宋志成。交叉研究解开《红楼梦》之谜。科学画报，1999（6）。
　　[3] 钟嘉陵 .未鸣学。古典名着红楼梦的分专题自动检索 .深圳大学学报，1986（3）。

相关内容推荐