1、概述
当前互联网上的科技论文数量正以指数级速度增长,如何对这些海量文档进行分类已成为一个重要的研究课题。现有的文本分类大部分是面向粗粒度的,即考虑的是整篇文档的类别划分。例如,各大门户网站根据新闻性质的不同将新闻文本分为娱乐、财经和法律等类别;文本分类系统根据内容题材的不同将文本进行归类;文献检索系统根据论文研究领域的不同将论文分为农业、计算机、电子和医学等类别。相对而言,面向细粒度的文本分类研究较少,事实上,这种文本分类在日常生活中有广泛的应用前景。例如,在科技论文查新时,有些研究人员可能只关心哪些论文在研究背景上是相似的、哪些在主题上是相似的、哪些在方法上是相似的、哪些在实验结果上是相似的。然而,面对此类问题,传统的粗粒度文本分类方法存在一定的局限性。
基于此,本文以科技论文的摘要句子为研究对象,根据句子的语境信息,将摘要句子分为 4 个语境类型:背景知识(Background, BA),主题(Topic, TO),研究方法(Methodology,ME),实验结果(Result, RE),提出一种两阶段的无监督论文摘要句子分类方法,第 1 阶段通过一些启发式规则完成摘要句子的初分类;第 2 阶段利用机器学习方法对初分类中未分类的句子重新分类。
2、相关工作
当前的细粒度句子分类研究大部分都是基于语境信息进行的。根据文献[4]的定义,句子的语境信息是根据句子在文本上下文中所起的作用为句子设定的一个信息标识,是对不同句子在文本中所起相同作用的一个共性描述,同时定义了语境类型是对语境信息种类的概括。语境类型识别在自动文摘、文本分类、文献检索服务等方面有较广泛的应用基础。
提出了语境信息标注决策树的概念,将句子的语境类型识别应用于抽取式自动文摘生成。提出一种利用句子的语境信息抽取摘要候选句的方法,同时验证了利用此方法生成的摘要更加接近人工生成的摘要。对 MedLine 中的医学论文摘要句子分类进行了研究,定义背景知识、研究主题、研究方法、实验结果 4 类语境类别标签,选择单词集合和句子相对位置特征,分别在支持向量机(Support Vector Machine, SVM)分类器和线性分类器下进行实验,实验结果表明,SVM 分类器效果明显优于线性分类器。
开发的 TextLens 医学文献检索服务系统在选用实验特征的基础上,进一步增加了句子的时态、TF*IDF 值、助动词等特征,对论文摘要句子进行语境类型识别,利用识别出的语境信息对同一领域的背景知识、研究方法、研究成果等历史记录进行概括总结,从而可以为用户返回更符合搜索请求的候选文献。本文方法是对文献[6-7]研究方法的扩充,探索了规则与机器学习技术相结合的方法识别句子的语境类型,从而实现摘要句子级别的分类。
3、两阶段的无监督论文摘要句子分类方法
3.1、种子样本的确定
通过句子所在的位置信息、关键词信息和上下文信息等启发式规则,对论文摘要中的每个句子所属的语境类型进行初分类。
(1)位置信息。位置信息即摘要中句子的编号,通过分析发现,句子所属语境类型与句子在摘要中所在位置关系密切。例如,摘要的第 1 句通常介绍背景知识;中间部分介绍方法;最后部分一般是实验结果。
(2)关键词信息。通过对摘要句子的分析,发现除背景知识外,其他类型都存在重复率较高且具有明显类别区分度的单词或短语。这些关键词信息对于确定句子所属语境类型同样具有非常重要的作用,利用统计的方法,取词频排名靠前的 N-gram(N<3)作为在初分类过程中所用到的关键词表。篇幅限制仅列出了统计的部分关键词。
(3)上文信息。指待判定语境类型的句子的上一句、上上句的语境类型信息。上文信息对判定句子的类别具有重要的指导作用。例如,论文主题的上一句一般是背景知识,研究方法的上一句通常是论文主题,而上上句通常是背景知识。
3.2、基于机器学习的分类
经过上述基于规则的分类算法的初分类,把符合规则的句子挑选出来,将它们作为机器学习的训练集样本(种子样本),对剩余未分类的句子利用机器学习方法重新分类。主要考虑以下特征:(1)位置信息:取值 0、1、2 等;(2)关键词:
选择表 1 中的关键词;(3)上下文信息:本句上句和下句的类型;(4)Unigram 单词:去除停用词后的单词。
4、实验
由于目前没有通用的细粒度论文摘要句子分类语料,因此本文进行了语料的收集和标注工作。
4.1、实验语料
本文共收集 2010 年自然语言处理国际顶级会议 ACL 发表的 200 篇长文中的摘要,共 1 000 个句子,分以下 3 个步骤进行标注。
4.2、实验结果与分析
为清晰起见,先解释实验中用到的几个变量:种子样本数目,即初分类阶段,经过规则分类器筛选,选为机器学习的训练样本的句子数量;总样本数目,即用于实验的所有句子数目;种子样本率,即种子样本数目与总样本数的比值。
通过逐步增加种子样本的规模观察其对系统性能的影响。随着种子样本数目的增加,所训练出的分类器对剩余句子分类的准确率上升,当种子样本率选择 0.6 时会得到最优的分类效果。继续增加种子样本率会因种子样本的质量下降而影响分类器的分类效果。
5、结束语
本文提出了一种无监督的细粒度论文摘要句子分类方法,与现有的细粒度分类方法相比,由于在分类中考虑了关键词和上下文信息,实验证明能够获得更高的分类正确率和召回率。
本文的分类方法目前还处于探索阶段,许多工作还有待展开深入的研究。种子样本的选择对于接下来的机器学习效果非常重要,如何更好地选择种子样本需要继续研究;机器学习过程中特征的选择也是非常关键的,之后将加入一些句法、依存关系、词性标注的特征,以获得更好的结果。