文献检索时,用一定的标识符号,对文献中具有检索意义的外表特征和内容特征进行高度压缩,并赋予标识的过程,在情报学中称为标引。
按照所使用的检索语言的不同,标引可分为两类:分类标引和主题标引。
分类标引是按事先设计的分类标准或体系,将有关文献分门别类地分组,并赋予分类号的过程。提交期刊发表的每一篇论文中的“中图分类号”字段,就是分类标引|中赋予的标识符。编辑人员根据论文的内容,比照《中国图书分类法》事先设计的学科分类体系,查找出论文所属的类别编号,即是“中图分类号”.因为期刊所使用的分类体系与图书馆使用的完全相同,所以期刊文献可以直接纳入图书馆的文献检索系统,方便读者查找。
经过分类标引,可以清楚地表示出文献的内容属类,但对文献的具体内容特征,如论点、研究对象、重要数据等,则不能直接标识。
这显然不能满足信息用户的要求。因此,到20世纪50年代,出现了一种新型检索语言,即主题语言。它以自然语言的字符为字符,以规范的名词术语(主题词)为基本词汇,以概念间的形式逻辑为语法和构词法,用一组主题词作为文献的检索标识符。
主题语言吸收了分类语言的长处,特别是引入了词间关系,并以概念间的逻辑关系表达词义,从而形成了一个完整的语义网。借助这一语义网,可以对文献进行内容特征的检索,从而使我们对文献检索的准确度大为提高。这种标引方法,就是主题标引。
从理论上讲,主题标引使用的标识符是主题词。所谓主题词,是从自然语言中提取的、经过标准化的词语或词组。将主题词按照其间的语义关系汇总编纂成册,即是主题词表。进行主题标引所采用的主题词,必须来源于主题词表。
编纂主题词表是项浩繁的工程。 我国的《汉语主题词表》 编纂工作起于1974年,1980年才正式出版。但是,由于时代的变化,汉语语言正处在快速演进之中,《汉语主题词表》一面世,就已经落后于时代。为了弥补《汉语主题词表》陈旧带来的困扰,一些行业或部分针对本领域或本学科的特点,陆续编纂了一些专业的主题词表,如《医学主题词表》、《冶金主题词表》、《国务院公文主题词表》等。即使这样,主题词表的发展仍远没有语言发展得快。所以,为了主题标引工作的开展,除了在各类主题词表中选词外,也需要在自然语言(论文中正常使用的语言)中直接选择一些内涵和外延比较稳定的自然词汇或名词术语用作补充,称为“自由词”,自由词和主题词并用,标识字段称为“关键词”.
由此可见,实际中论文中标注的关键词有两个来源,一是主题词表中的经过规范化处理的主题词,一是从自然语言中优选的自由词。使用时,优先使用主题词,如果找不到恰当的主题词,才可以用自由词补充。一些人认为,关键词全部都是自由词,或者关键词就是主题词,这些理解都是不准确的。
即使是自由词,也不能随心所欲:首先,用作关键词的自由词应是外延和内涵比较稳定、能够代表文献典型概念的概念词汇或术语,所以,概念定义不稳定、有歧义或过于普通的词不能选作关键词;其次,自由词之间应符合一定的语义关系,有上下位或种属关系,并可通过语义网给以描述,如“民航”可以通过其上位词“交通”和下位词“机场”描述,而不致理解歧义;第三,应用主题标引的方法进行,使标注的词与词之间形成一定的逻辑关系,相互配合共同刻画论文的内容特征。例如,“研究”过于普通,“信息”在不同的学科有不同的意义、概念不唯一,“的士”有地域性、不规范,“愤青”内涵不稳定、孤立而难以建立语义网准确刻画等等,都不适合选为关键词。相反,“法理学”、“公共汽车”、“布尔运算”等词语,内涵稳定,认知统一,有丰富内涵,适合选作关键词。
主题标引的应用已日趋广泛。国务院规定所有下发的政府文件都要标出关键词;所有论文,无论是学术论文还是学位论文,也必须标注关键词;文献检索,也要用到关键词检索,等等。因此,掌握主题标引的方法,不仅有助于完成论文写作,也有助于在以后的文献检索和数据库应用中提高工作质量和效率。
主题标引主要包括主题分析、主题概念的转换、标引词的选择以及标引结果的审核等步骤,其中以主题分析及主题概念的转换最为重要。