3 数据挖掘技术
信息发布和信息检索是Internet中最为重要的应用。数据挖掘技术因此产生,是建立在数据仓储技术之上的,它的目的是从大量数据中寻找有用的信息。
它最早主要应用于商业活动,例如市场管理、风险管理和欺诈管理。它可以应用于对科学数据的加工,并从已有的科学数据库中寻找出新的科学知识或规律,这是一个很有吸引力的工作。既然数据挖掘技术可从大量的商业活动所积累的数据中挖掘出有用的信息,那么就应该有可能从大量科研活动所积累的数据中挖掘出我们还未掌握的知识,即新的科学发现。
3.1.1 数据挖掘的概念
根据W.J.Frawley等人的定义,数据挖掘(DataMining)是指从大型数据库中提出人们感兴趣的知识,这些知识是隐含的、事先未知的、潜在的有用信息。
数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的,有效的,可实用的信息,并使用这些信息做出决策或丰富知识,数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先未知,有效和可实用三个特征。数据挖掘方法与统计方法的不同之处主要体现在:通常的统计方法是在已有的假设基础上,从大量的数据中得到验证,而数据挖掘则是从大量的数据中得到崭新的模式、结论和假设;数据挖掘方法是纯粹的给予数据驱动的方式,而统计方法则更多地引入人为因素并加以分析。探索式数据分析是统计方法中与数据挖掘最相似的分支,但它所面向的数据集还是比数据挖掘对象小得多。
3.1.2 数据挖掘的过程
数据挖掘过程可粗略地分为:问题定义(taskdefinition)、数据准备和预处理(data preparation andpreprocessing)、数据挖掘(data mining)以及结果的解释和评估(interpretation and evaluation)等阶段。
问题定义,在该过程中,数据挖掘人员必须与领域专家及最终用户紧密协作,一方面明确实际工作对数据挖掘的要求,另一方面通过对各种学习算法的对比进而确定可用的学习算法。后续的学习算法选择和数据集准备都是在此基础上进行的。
数据挖掘。该阶段首先根据对问题的定义明确挖掘的任务或目的,如分类、聚类、关联规则发现或序列模式发现等。之后要决定使用什么样的算法。选择实现算法要考虑两个因素:一是不同的数据有不同的特点,因此,需要用与之相关的算法来挖掘;二是要根据用户或实际运行系统的要求,有的用户可能希望获取描述型的(descriptive)、容易理解的知识(采用规则表示的挖掘方法显然要好于神经网络之类的方法),而有的用户只是希望获取预测准确度尽可能高的预测型(predictive)知识,并不在意获取的知识是否易于理解。
结果解释和评估。数据挖掘阶段发现的模式,经过评估,可能存在冗余或无关的模式,这时需要将其剔除;模式也有可能不满足用户要求,这时则需要整个发现过程回退到前续阶段,如重新选取数据、采用新的数据变换方法、设定新的参数值,甚至换一种算法等。
挖掘结果质量评价。数据挖掘结果质量的好坏有两个影响因素:一是所采用的数据挖掘技术的有效性,二是用于挖掘的数据的质量和数据量。如果选择了错误的数据或不适当的属性,或对数据进行了不适当的转换,则挖掘结果不会好。整个挖掘过程是一个不断反馈的过程。
数据仓库技术的发展与数据挖掘有着密切的关系。数据仓库的发展是促进数据挖掘越来越热的原因之一。但是,数据仓库并不是数据挖掘的先决条件,因为有很多数据挖掘可直接从操作数据源中挖掘信息。
3.3 数据挖掘技术在现代化图书馆中的应用
目前国际上已经将图书馆的信息服务纳入了电子商务之中,数据挖掘技术不仅在商业界倍受青睐,它在现代化图书馆中的应用前景也十分广阔。
在现代化图书馆中,数据挖掘技术可以指导图书信息资源的采集。我们根据流通数据库的集成数据进行数据挖掘,能够得到读者对图书资源的使用频率表,对读者进行分类的同时对适合不同类别的读者的图书资源进行聚类,可以快速而精确地得到订书单。馆藏书目数据库是图书馆的基础资源,编目工作者每天对它进行维护,输入大量的数据,对这些数据进行挖掘可以有针对性地制定馆藏策略,有目标地决策图书馆的发展方向。
信息咨询是图书馆向读者提供的最直接的信息服务。现代化图书馆已不仅仅停留于此,它最主要的职能是将图书馆建设成为知识服务中心,是信息时代图书馆的标志。因此,图书馆从业者应该具有强势学科背景、精通网络技术。
传统的图书馆信息服务模式,大都是由用户提出信息请求,图书馆工作人员进行解答,或是定期向用户提供相关书目,这些服务都是被动的,不属于知识服务。掌握数据挖掘技术可以从根本上改变这个现象。基于Web的信息挖掘是很好的知识服务方式。
WWW(World Wide Web)是目前世界上使用最广泛的巨型信息服务中心。WWW是以超文本链接的形式出现的,它固有的异构性和动态性导致了从Web中获取信息显得极为容易而得到有价值的信息却变得越来越困难。将数据挖掘技术的思想引进来,可以解决关键问题。
3.3.1 数据采集
图书馆信息服务人员首先要做的是信息采集工作,根据数据挖掘目标向Web(如Google、Infirseek、Yahoo等)发送查询请求,然后对结果得到的Web站点进行筛选,而后运行多个Robot程序(这是一种能够漫游追踪Web链,并通过HTTP等标准协议读取页面数据的程序),逐个浏览命中页面,采集原始数据。
3.3.2 关联分析
关联分析是寻找数据库中值的相关性。两种常用的技术是关联规则和序列模式。关联规则是寻找在同一个事件中出现的不同项的相关性,比如在一次信息咨询中所提出的不同信息请求的相关性。序列模式与此类似,寻找的是事件之间时间上的相关性,如对同一个读者历时的信息咨询分析。关联规则可记为A]B,A称为前提和左部(LHS),B称为后续或右部(RHS)。如关联规则/借阅图书A的人也会借阅图书B0,左部是/图书A0,右部是/图书B0.
要计算包含某个特定项或几个项的事务在数据库中出现的概率只要在数据库中直接统计即可。某一特定关联(/图书A和图书B0)在数据库中出现的频率称为支持度。比如在总共1 000个事务中有15个事务同时包含了/A和B0,则此关联的支持度为1.5%.非常低的支持度(比如l百万个事务中只有一个)可能意味着此关联不是很重要,或出现了错误数据。
要找到有意义的规则,我们还要考察规则中项及其组合出现的相对频率。当已有A时,B发生的概率是多少?这是概率论中的条件概率。也就是问/当一个人已经借阅了图书A,那他有多大的可能也会借阅图书B?0这个条件概率在数据挖掘中也称为可信度,计算方法是求百分比:(A与B同时出现的频率)/(A出现的频率)。
3.3.3 分类
分类要解决的问题是为一个事件或对象归类。用分类来预测读者的最大信息倾向。数据挖掘算法的工作方法是通过分析已知分类信息的历史数据总结出一个预测模型。可以对不同读者有针对性的提供预测信息。
3.3.4 知识服务
现代化图书馆的信息咨询工作要由/搜索引擎0走向/挖掘引擎0.就是说,不能仅仅向读者提供信息在网络上的位置列表(List),而是要使读者得到相关信息之间的有价值的知识(Knowledse)。同时,将这些知识以可视的形式提供给读者,因此,提供/可视知识0将是图书馆信息工作者的主要职责。
现代化图书馆与信息技术息息相关,作为知识聚集地的图书馆会跟上时代的发展,发挥它的强大功能,为不同的研究领域提供真正有价值的知识服务。
参考文献
1 Vidett Poe, Building a data warehouse for decision support, ByPrenticePTR,1996.
2 Peter Cabena,Discovering Data Mining From Concept to Implementation,IBM,1997.
3 George H.John,Enhancements to the Data Mining Process,Thesis ofStanford University,1997.