以半自动化“主题词簇”方法体系定量定性分析科技文献

来源：学术堂作者：周老师
发布于：2014-04-02 共6969字

论文摘要

　　自“十八大”以来，“实施创新驱动发展战略”的伟大构想被确定为国家未来发展战略的核心思想，与此同时，“实行更加有利于实体经济发展的政策措施，推动战略性新兴产业、先进制造业健康发展”也出现在了“十八大”报告中。推动战略性新兴产业的发展已经成为当前全球经济一体化大趋势下，实现经济可持续发展，抢占经济发展核心领域，推动经济发展的革命性力量。基于这一战略决策，以科学学研究为核心的战略性新兴产业定位、战略性新兴技术聚焦、国内外新兴技术宏观态势研究以及新兴技术竞争情报挖掘等热门研究迅速进入视野，也成为从国家政府到大中型企业都愈发关注，并需要认真思考的核心问题。然后，这种从科技文献数据中萃取有效信息，实现知识发现的方法（如词频分析、关联分析、社会网络分析等）严重依赖于自然语言处理技术所获取的主题词词表。以SCI/SSCI数据为例，5000篇左右的科技文献能够获得约10万个词条，这些词条中存在大量的噪声数据，直接使用将严重影响分析结果。而人工清洗几无可能，完全的机器清洗一方面缺少清洗准则，而且“误删率”极高，也缺乏足够的可信度。在此基础上，本文结合佐治亚理工大学技术政策评估中心（Technology Policy & Assessment Center）近三十年来在文本挖掘与文献计量学研究中对于英文主题词清洗问题的研究经验与技术，总结并制定了一套“主题词簇（Term Clumping）”方案,即在传统的主题词清洗方法（如停词表、模糊语义处理等）的基础上，引入了当前文献计量学领域中较为成熟的文本分析方法，如：词频文档频次转化（Term Frequency Inverse Document Frequency Analysis,TFIDF）、主题词合并分析（Combine Terms Network,CTN）、基于主成分分析方法（Principal Components Analysis,PCA）的聚类分析等，形成了一套以定量分析为主，定性分析为辅的主题词清洗、合并及聚类方法体系。本方法旨在为我国科学学研究工作中涉及到挖掘与分析国外英文科技文献数据研究提供一套详尽的具有可信度与准确性的主题词处理方法，为后续的相关研究提供一份更具有潜在代表性的主题词词表。

　　本文第二部分对国内外相关研究展开调研，主要集中在科技文献处理与分析方法与主题词簇方法（包括主题词清洗与主题词聚类等）的文献调综述。第三部分以光伏电池为例，详细叙述“主题词簇”方法体系。第四部分，本文对“主题词簇”方法展开讨论，并对今后的工作进行展望。

　　1.研究背景

　　文本挖掘与分析工作必须考虑到文本潜在形式的不同以及文本所使用的语言、场合及其规范性问题都将影响文本的存在形式，并直接导致分析结果的差异性.作为本文所使用的文本挖掘软件Vantage Point一直致力于英文科技文献数据进行包括自然语言处理在内的文本分析工作，对于技术术语，甚至是化学表达式的智能分词都具有不俗表现.

　　“Term Clumping”一词最早由Bookstein提出，他对“簇（Clumping）”与“类（Clustering）”的概念进行了比较，强调了“簇”的有序性及其邻接属性.

　　Bookstein使用“主题词簇”方法衡量英文单词或词组的统计学属性，如词组间的语义关系等.与此同时，由Alla人定义的话题监测与追踪模型（Topic Detection and Tracking ,TDT）与“主题词簇”方法具有异曲同工之妙，该方法基于语义分析以及数理统计方法监测文本中新话题的出现，并进一步追踪该话题的演化情况.

　　当前，数理统计方法被大量的引入到关键词合并、聚类以及其他相关研究中来，如PCA方法、隐式语义索引（Latent Semantic Indexing,LSI）以及隐式狄利雷分配法（Latent Dirichlet Allocation,LDA）等等。这些方法也不仅仅局限于“主题词簇”的研究中，而是广泛并深入的扩展到单词聚类、词组聚类等话题模型的定义研究中。本研究团队自20世纪90年代以来，致力于PCA方法的研究与应用，并已在Vantage Point软件上实现了基于PCA方法的关联分析与可视化.在其他方面，Maletic等学者把LSI分析引入到对计算机程序的相似性匹配及概念定位的研究中;Blei等学者为改进LSI方法中计算复杂等诸多问题提出LDA方法，并将其应用到“话题模型（Topic Models）”方法中.为比较PCA与LDA方法的文本分析与聚类能力，Newman等学者以染敏太阳能电池领域的SCI/SSCI与EI混合数据为例，深入分析了两者在多种文本聚类方式上的效率问题.

　　不难发现，当前的“主题词簇”相关研究集中于主题词萃取与主题词聚类这两个方面。其中，主题词萃取研究多集中于计算机与软件技术等相关学科，研究工作围绕自然语言处理技术、语义分析以及机器学习等方向的算法展开。而主题词聚类研究则趋向于两个子方向：（1）围绕PCA、LSI尤其是LDA方法的算法研究；（2）以具体领域为案例，选择相应的方法展开应用研究，这方面工作多见于管理学等应用学科。与国外研究情况类似，国内学者的研究热点也多呈现出相同的分布。

　　由此可见，当前国内外针对主题词清洗与合并的系统研究几乎为空白。一方面，研究人员将主题词的优劣程度寄希望于提升自然语言处理技术的主题词萃取能力，或者，选择在进行主题词聚类分析时有目的的通过人工或者软件选取适量主题词，以使其迎合分析目标；另一方面，研究人员或选择大规模专家知识的引入，人工完成主题词筛选工作，或通过停词表等传统清洗办法进行机器清洗，亦或规避这一问题。

　　基于以上文献综述及调研，毋庸置疑，聚焦主题词清洗与合并的研究工作势在必行：

　　其一，在这个“大数据”时代，科技文献数据库的容量愈发庞大，而其中能提取到的主题词数量更是近百倍的增长，在此基础上，基于人工的主题词清洗耗时耗力，并不可取。同时，大规模的专家引入，费用昂贵，且并不易办到；其二，当前国内外从事文本挖掘，尤其是文献计量学研究的分析人员知识背景复杂，大多数集中于计算机科学、信息管理科学、数理科学或者人文科学领域。然后，其大量研究工作将涉及到自然科学，特别是以新兴技术为代表的交叉学科。在此基础上，是否能够让分析人员在具有相对“不充分”的学科背景的情况下，采用更为简易的方式完成高水平的主题词清洗？这一设想，是当前科学学研究工作中的切实需求；其三，针对不同的分析需求与分析目标，对于主题词清洗与合并的方式并不相同，是否能够形成程式化的主题词清洗与合并方案，这对当前文本挖掘与分析研究工作具有重大的科学价值与实践意义。

　　2.方法：主题词簇

　　本文定义“主题词簇”方法如下：针对特定技术领域的科技文献数据库，对经过自然语言处理技术后的主题词进行有效清洗、合并及相应操作，以期为后续话题分析提供更佳的主题词列表。为有效说明本方法体系，本文选择了Derwent专利数据库中“光伏电池”领域的中国专利作为案例，依托案例，逐步展开。本案例数据基于“中国专利数据检索策略研究方法”,采用主题词检索与IPC（International Patent Code）检索相结合的方式，共获取2001年至2010年间的全部中国专利共13913条。经由Vantage-Point文本分析软件合并“标题”及“摘要”,并采用自然语言处理技术分词后，共获得主题词210044个。

　　本文构建“主题词簇”方法框架如图1所示，包括“预处理”、“词表清洗与合并”、“模糊语义处理”、“基本修整”、“关联”、“遴选”以及“聚类”七个步骤。表1则详细介绍了每一个步骤的具体操作方式，并记录了主题词列表中主题词数目的变化。需要特别说明的是，在本套“主题词簇”方法体系中，可能被提及的方法及操作源自于本研究团队长期以来的科研经验、前期项目工作中的专家意见或软件的处理能力等，所以在某些关于“数量”的定义（如，“选取前200个主题词”等）时并非严格的规定，而是需要根据具体的科学研究需求进行斟酌与调整。

　　图1

　　图2

　　第一步“预处理”旨在对经过自然语言处理后的主题词进行适当的整理，清洗掉显而易见的“噪声”主题词，以减轻巨大的主题词数量给后续“主题词簇”处理带来的压力。以软件Vantage Point为例，在完成自然语言处理之后，倘若文本中含有大量的化学表达式（如：TiO2）或类似上标、角标等符号时，大量的XML标签（如：<inf>、</inf>等）将存在于主题词列表中，产生大量冗余数据（如：“TiO<inf>2</inf>”与“TiO2”）,此时需要采取清洗手段，对XML标签进行剔除，对冗余数据进行合并。另一方面，基于长期的主题词处理经验，我们发现含有数字的主题词大多数对后续分析无意义，如“1.5%”、“TiO2”、“25degree”等等。因此，“主题词簇”方法对此采取了两种可选方案：（1）移除全部的含有数字的主题词，这种方案清洗力度强，但误删率亦较高，选择时需要慎重；（2）仅移除以数字开头的主题词，此方案移除的主题词多为“数字+单位”的表达形式，相对而言，较为谨慎。值得一提的是，在处理生物、化学等存在重要化学表达式的技术领域数据时，第二套方案为最佳选项。本文由于所选案例化学表达式相对较少，且主题词数量过于庞大，因此跳过XML标签清洗步骤，选择移除全部含有数字的主题词进行清洗，本步骤共移除主题词84641个，占全部主题词的40.3%.

　　第二步“词表清洗与合并”是传统意义上的主题词清洗步骤。本步骤共采用了停词表、常用词表、学术期刊文献常用词表、专利文献常用词表、太阳能技术领域常用词表等九个词表，移除或合并主题词10398个，占全部主题词的8.3%.其中，“合并”主题词时原主题词的全部属性被并入目标主题词，并非“移除”其全部记录。本步骤操作如下所示：

　　移除无意义动词、介词、代词等，如“am”、“in”、“the”等；移除常用词、学术期刊文献及专利文献常用词，如“year”、“methodology”、“advantage”等；合并太阳能技术领域的常用词或简称，如合并“DSSC*”、“DSC*”、“dye sensitized solar cell”等主题词为“DSSCs”;合并名词主题词的单复数形式，如“solar cell”被合并至“solar cells”;移除组织机构名称、国家政府名称以及公司名称等“噪声”主题词（此类情况常见于期刊文献数据，专利文献数据中并不多见）,如“Chinese Chemical Society”、“2009 Elsevier Ltd.”等。

　　第三步“模糊语义处理”也是传统的主题词清洗方法之一。本文选用了Vantage Point软件中自带的基础模糊语义处理模块以及本研究团队在处理“染敏太阳能电池”领域数据时编写的针对技术词汇的模糊语义处理补丁。本步骤主要是基于英文单词的词干，对类似主题词进行合并处理，如“efficient”与“efficiency”以及“sensitized dye”与“sensitive dye”等。同时，对于在“词表清洗与合并”中遗漏的名词单复数形式也会进行有效处理。两次处理分别移除主题词12399个和9170个，共占全部主题词的18.8%.

　　第四步“基本修整”是相对具有争议性的步骤之一。一方面，本步骤移除了全部只在1篇文献中出现过的主题词。毋庸置疑，倘若某个主题词仅仅被数千篇文献中的一篇提及，其有效性值得怀疑。

　　但是，某些情况下，此操作也可能会删去极少数的“低频词”与潜在的热点词汇。因此，本操作仅作为一般“主题词簇”方法使用，如果此次主题词清洗的目的在于针对新兴技术预测等研究，那此步骤需要跳过。另一方面，本步骤针对主题词所含的单词数目对主题词进行了分类，根据本研究团队多次专家调研与讨论，得到的基本共识是“含有2、3或者4个单词的主题词具有最佳的表意效果”.因此，本步骤中多会保留以上组别的主题词，而移除其他。本案例中，考虑到含有5个单词或以上的主题词数目较少，而仅仅移除了只含有1个单词的主题词。本步骤两个子步骤分别移除关键词70733个和1343个，共占全部主题词的77.1%.这是整个“主题词簇”操作中移除主题词数目最为庞大的一个步骤，需要说明的是，这一步骤放在了第四步的原因在于部分“仅在1篇文献中出现过的主题词”可能会在“词表清洗与合并”或“模糊语义处理”步骤中与其他主题词合并，这将很大程度上弥补这一“武断”操作所带来的误删可能。

　　第五步“关联”以“关联规则”为核心，通过多种不同的“关联规则”对主题词进行合并。其中，“主题词聚类分析”是由本研究团队Cherie Trumbach提出,其在主题词所含单词分类的基础上，分别对含2个单词的主题词、3个单词的主题词以及4个或4个以上单词的主题词进行关联度计算，对于具有高相似度的主题词予以合并。目前，该方法已经形成Vantage Point软件中的可用脚本，但仅适用于主题词数量相对较少（1万以内）的情况，因此，本案例对此省去。另一方面，“主题词合并网络分析”则是借鉴了“作者合并网络分析”的思想，即在具有频繁论文合着关系的作者聚类中，低产出的合着者通常被并入高产出的作者中。因此，“主题词合并网络分析”将低频词与其频繁共现在同一文档中的高频词合并，以大幅减少低频主题词的数量。值得一提的是，该方法同样存在误删新兴技术潜在热点词汇的可能，在选择过程中需要予以斟酌。本步骤共移除主题词4254个，占全部主题词的19.9%.一般而言，主题词的清洗工作在第五步已经基本结束，后续步骤则侧重于对主题词的遴选以及聚类等研究。

　　第六步“遴选”引入了当前文本分析技术中相对成熟的“词频文档频率转化分析（TFIDF）”方法。

　　TFIDF方法起源于上个世纪八十年代，旨在引入主题词所在文档的频率，用以平衡单纯考虑主题词频率可能造成的召回率（Recall）与准确率（Precision）指标失衡。KevinBoyack等研究人员将TFIDF方法的计算公式表示如下:

　　TFIDFi,j= t∫i,j× id∫i

　　id∫i= log（D / di）

　　t∫i,j= ni,j/ ∑nk,j

　　如上所示，i表示主题词，D表示文档总数，d表示主题词i的文档频次，nk,j则表示主题词k在文档j中出现的频次。软件Vantage Point具备TFIDF的分析功能，并提供了id∫的三种计算方式，除上面提到的log之外，还有sqrt与直接id∫i=D/di的方法，利用其降维能力的不同，分别用于处理“大文本（如全文）”、“中型文本（摘要）”以及“小型文本（仅标题）”三种数据。由于本案例选择了“摘要+标题”的数据形式，因此，选择以sqrt处理词频的TFIDF分析方法。

　　值得说明的是，TFIDF方法的使用也存在以下争议：（1）高词频且高文档频次的主题词，可能是技术领域中特别频繁而无意义的词，如太阳能电池领域中的“Solar Cell”;（2）高词频且低文档频次的主题词，可能是仅被少数文档多次提及的词，这类词可能无意义，也可能是具有潜在新兴技术挖掘价值的重要词汇，这种主题词需要慎重甄别；（3）低词频且低文档频次的主题词，这类主题词与第2类词类似，不过，其中大多数为无意义词汇，极少数具有潜在信息价值。基于以上问题，在“主题词簇”方法中，对于TFIDF方法的使用需要根据具体的分析需求来进行。例如，对于常规意义下的领域技术分析，可以选择性的剔除适量的高TFIDF词汇，以除去第1类无意义主题词；倘若所选择技术领域相对宽泛，学科交叉性强，则需要保留第1类主题词，因为这类词汇对于后续分析（尤其是聚类分析）存在极大的影响；而如果分析对象是新兴技术，且分析目标以技术预测为主，思考如何挖掘第2类主题词中的潜在价值这一问题将对分析大有裨益。本案例在遵循专家建议的基础上，在具有最高TFIDF值的前85个（约0.5%）主题词中选择性的剔除了30个主题词，并在此基础上以词频为序，选取前1700个主题词（约10%）作为本次“主题词簇”方法的最终主题词词表。本文选取了前60个主题词表，如表2所示。

　　表2

　　第七步“聚类”是在“主题词簇”方法的基础上，对主题词进行话题聚类分析的有效尝试。本文从最终主题词列表中选择了前200个主题词（以Vantage Point软件的最佳分析能力为依据）,使用Vantage Point软件中基于PCA方法的可视化聚类分析模块生成“主题聚类图谱”,如图2所示。

　　图3

　　图2中生成的8个聚类包括“材料类”2个（“ZnO”与“Silicon Nitride”）、“工艺与组件类”5个（“Drain Electrode”、“Light Emitting Element”、“Optical Signal”、“Electric Energy”与“Color Filter”）以及“产品类”1个（“Personal Computer”）.其中，“材料类”的两个聚类均为化合物，“产品类”的聚类则多为当前具有光伏电池（主要是锂电池）应用的数码产品，而“工艺与组件类”聚类则主要是光伏电池中的重要组件（如电极等）与重要制备工艺（如光电能转化及信号等）.经由专家议定，这一聚类结果与当前光伏产业的发展情况基本吻合，这也验证了本“主题词簇”方法的科学性与有效性。

　　此外，本文也列出了未经“主题词簇”方法进行主题词清洗与合并的主题词表前60位（如表3所示）用以比较验证“主题词簇”方法的优势所在。不难发现，在未经“主题词簇”方法处理的主题词表中，与表2进行对比后，仅有“semiconductor device”与“image sensor”相同，其他58个主题词均被剔除或合并到其他主题词中。本文对这些无意义或冗余主题词的特征总结如下：

　　专利文本中的固定主题词，如表3中大写字母标识；数字与字母；科技文献中频繁出现的主题词，如表3中斜体标识；英文单复数同时出现的主题词，“solar cell”与“solar cells”;无意义主题词，如表中“*”标识；单词，需要特别说明的是，这类主题词有时具有一定的学术价值，但是由于仅由一个单词组成，其传达的语义效果远远低于增添了修饰词以后的词组，如“device”、“semiconductor”与“semiconductor device”;

　　表3

　　3.总结与展望

　　毋庸置疑，以主题词清洗、合并与聚类为目的的“主题词簇”是当前以文献计量学方法为基础的文本分析研究的重要基础性方法与工具，经过清洗与优化的主题词是后续文本分析研究的结果，其影响作用至关重要。本文以此为背景，以文献计量学与文本挖掘技术为核心，在传统主题词清洗方法的基础上，引入当前相对成熟的主题词分析方法与理论，构建了面向科技文献主题词的清洗、合并与聚类的“主题词簇”模型，并选择了Derwent数据中2001年至2010年十年的中国光伏产业专利数据进行了实证分析，比较了“主题词簇”方法前后主题词的优劣，证实了本套方法的科学与有效。

　　关于本套方法的后续研究将围绕“新兴技术竞争情报挖掘”展开，将“主题词簇”方法作为新兴技术竞争情报挖掘的重要基础工具，并将其同TRIZ理论、技术路线图理论以及三螺旋产学研合作研究等进行结合，在定性分析与定量分析相结合的基础上，深入挖掘科技文献中的潜在价值，为当前文本分析研究提供新的思路与方法体系。（参考文献与图标略）

相关内容推荐