学术堂首页 | 文献求助论文范文 | 论文题目 | 参考文献 | 开题报告 | 论文格式 | 摘要提纲 | 论文致谢 | 论文查重 | 论文答辩 | 论文发表 | 期刊杂志 | 论文写作 | 论文PPT
学术堂专业论文学习平台您当前的位置:学术堂 > 图书档案学论文 > 搜索引擎论文

数据挖掘技术在搜索引擎中的运用

来源:学术堂 作者:周老师
发布于:2014-07-31 共2237字
论文摘要

  在搜索引擎技术的发展之下,智能检索作为一个新型的检索方式已经渗透到了网络数据的设计中,该种检测方式能够帮助人们检测出高质量的信息,是检索方式发展的一种必然需求,将数据挖掘技术应用在网络资源可以实现智能检索的发展,也能够为人们提供出更加具有针对性的信息,一般情况下,智能检索包括三种形式:即个性化信息检索、知识检索以及内容检索,后两者是建立在网络信息基础之上的,为了提升信息检索的深度,可以将数据挖掘知识应用在其中。

  1 数据挖掘技术的阐述

  数据挖掘就是在大量模糊、随机、不完全、存在噪声的数据中,找寻出有用的、潜在的信息与知识的一种过程。数据挖掘包括几个核心内容,首先是数据源一定是大量、真实、存在噪声的信息和知识,在这些数亿万计的信息中针对用户所需要的信息展开搜寻,还要保证寻找出的知识要具备价值,最终可以为用户接受,这三点缺一不可,成为数据挖掘的重要组成因素。
  数据挖掘从本质上而言是一种有效的数据分析方法,该种分析方法在世界范围内已经有多年的历史,在以往,数据挖掘主要应用的数据的收集上,也多用在科研领域中。此外,在计算机水平的限制下,对于复杂数据的分析也受到了极大的限制。在商业的发展下,大量的数据产生,商业运作意义的数据挖掘应用而生,对于这些数据的分析与收集用处十分广泛,已经不仅仅是为了迎合某种特定的需求,而是为决策人员提供更多的具有价值的信息,从而满足更加多样化的商业需求。

  2 数据挖掘技术的应用范围及其发展

  数据挖掘知识对象多为大型数据库,强调使用计算统计与数据描述的方式来表达变量,常见的方式有均方差与平均值,采取该种方式能够有效寻找出数据之间的关联,目前,数据挖掘知识已经在商业数据库、医疗保险、电信等领域之中得到了广泛的应用,网络技术的发展有为数据挖掘知识的普及提供了更加广阔的道路。将数据挖掘知识应用在网络数据中能够有效实现网络信息检索技术的智能化发展。
  数据挖掘技术是建立在人们对于数据库技术开发的基础之上,最初开始,计算机数据都是储存在计算机自身的硬件系统中,在网络技术的发展下,数据库网络得到了普及型的应用,数据库也开始能够实现实时联网查询,在网络技术的进一步推动之下,数据挖掘技术又开始步入到新的发展历程中,这不仅可以实现对数据的查询,还可以帮助人们找寻出数据之间存在的种种联系,继而实现信息的有效传递。

  3 数据挖掘技术在搜索引擎中的应用

  3.1 数据挖掘技术可以使Web搜索更权威

  用户要搜索Web页面,不仅想要得到相关的信息,更重视的是信息的质量与话题的权威性,Web中不仅包括了页面,还包含大量的超链接,这种超链接在本质上是一种注释,在建立好页面指针后,就说明了作者对于这一页面的认可,数据挖掘技术将大量的注释收集起来,不仅能够反映出页面重要性,也很好的丰富了页面的结构信息与内容相关性,但是,Wed页面的链接也有一些局限性,因此,人们也提出了hub,hub实质上是Web的一种集合,能够针对某些话题来列出最突出的链接。一般情况下,hub就是一些权威页面的几何,这就有效提升了Web的质量。

  3.2 数据挖掘技术的重要算法HITS

  算法HITS是一种基于hub基础上发展而来的算法,包括以下几个内容:
  第一,HITS可以通过查询词来得到初始结果,搜索出的结果共同组成了根集,由于此类页面中的内容与搜索和假定内容相关,因此,这些搜索出的根集都是权威页面,这些根集可以扩展成为基本集,基本集中包含了指向根集页与根集页,为了控制扩展尺度,可以设置好基本集上限。
  第二,在结果出来后,就能够进入到开始权重传播阶段,这一阶段是一种典型的递归过程,可以决定权威权重与与hub值,考虑到相同Web域会起到导航作用,不具有权威性,因此,可以将这类链接剔除。为此,可以在基本集的每一个页面中确定好权威权重与非负权重,将权威权重与非负权重值定义于常数,并将所有权重平方定为1,根据相应的公式来计算出具体的权威与权重。在定义完成之后,就可以根据线性代数的相关要求进行矩阵化处理,分析页面本质特征,得出具有大hub权重页面。目前,算法HITS已经得到了非常广泛的应用,该种算法对于很多查询都有着良好的效果。

  3.3 HITS算法在搜索引擎中的使用分析

  虽然传统的链接算法能够达到理想的效果,但是该种算法常常会忽略文本内容,在实际应用的过程中也会出现一些困难。举例来说,在hub页面中有大量的话题内容时,若采用HITS算法,就可能会出现偏差,对于这一问题,可以通过改变算法的方式进行解决,但是就会导致程度人员的工作量大幅的增加。在遇到该种情况时,可以适当的优化HITS算法,基于HITS算法系统就有着很好的使用价值,这一系统中有Clever,着名的Google就是采用了该种算法。由于系统中增加了大量的文本内容与Web链接,这就可以有效的优化查询效果。

  4 结语

  总而言之,将数据挖掘技术应用在网络资源可以实现智能检索的发展,其数据挖掘结果是建立在传统智能检索的基础上,检索结果又可以为数据挖掘提供一定的线索,就现阶段来看,数据挖掘技术已经得到了大范围的推广与应用,这能够为人们个性化的需求奠定基础。但是,数据挖掘技术在网络资源中的应用也出现一些问题,在未来阶段下,需要结合模式识别、机器学习等新型智能技术,相信在不久的将来,数据挖掘技术可以得到更好的推广和应用。

  参考文献
  [1]凌志泉.搜索引擎中的网络数据挖掘技术[J].计算机工程与设计,2013 年09 期.
  [2]赵朋.基于Web的用户访问信息挖掘研究[D].东华大学,2006 年.
  [3]邱均平,余以胜.基于知识库系统的智能搜索引擎研究[J].情报科学,2009年03 期.
  [4]张成岗,周奇.智能化的网络信息搜索引擎——数据检索及分析系统(DRANS)[A].第九次全国生物物理大会学术会议论文摘要集[C],2012年.
相关标签:数据挖掘论文
  • 报警平台
  • 网络监察
  • 备案信息
  • 举报中心
  • 传播文明
  • 诚信网站