学术堂首页 | 文献求助论文范文 | 论文题目 | 参考文献 | 开题报告 | 论文格式 | 摘要提纲 | 论文致谢 | 论文查重 | 论文答辩 | 论文发表 | 期刊杂志 | 论文写作 | 论文PPT
学术堂专业论文学习平台您当前的位置:学术堂 > 图书档案学论文 > 搜索引擎论文

大数据分析与智慧搜索的实现(3)

来源:学术堂 作者:周老师
发布于:2015-09-17 共5741字

  二、大数据分析与智慧搜索

  显然,智慧搜索大大优于目前的搜索。要实现智慧搜索,需要大量的知识,如:

  ●用户究竟需要知道什么?

  ●网络上查到的文章告诉我们什么?

  ●文章对某个对象的观点是褒义的还是贬义的?

  ●能否用几行字把文章的摘要告诉我?

  ●除了文章所告知的内容,相关的信息还有哪些?

  ……

    这些知识的获得就涉及大数据和大数据分析问题。

  其实,这里涉及几方面的问题,一是如何通过大数据分析获悉用户的真实需求;二是通过大数据分析获悉网络上文档的语义和内涵;还有,通过查询的语义扩展自动将用户希望得到的信息延伸扩展和知识化处理。

  要知道用户输入的请求,如这里的“长城”,究竟是意味着一个着名建筑物“万里长城”,还是长城汽车、长城计算机公司或长城马拉松,搜索系统需要分析:

  1) 绝大多数用户以往查询的历史数据

    2) 该用户查询历史

    3) 该用户的使用习惯

    4) 该用户请求的上下文(即用户刚才问了什么?)

    等等。

  这种分析,涉及到分析海量日志(Log)数据、用户上网Cookie数据、用户的行为特征,等等,其分析问题是典型的大数据分析问题。同时,要实现如图4所示的关联查询,从互联网自动分析出和奥巴马在美国的关系相仿的俄罗斯人士及其信息,需要关联分析,需要大数据分析技术。

  图5是基于SmartSearch搜索“王菲”,通过大数据分析而得到的结果。

  在SmartSearch的搜索中,会自动将用户输入的查询词“王菲”绑定为概念“人”,接着绑定为“演艺人士”、“歌手”.如图所示,网上同样还有一位“王菲”,其身份为广元市代市长。借助于日志和行为分析,系统判定用户关心的是歌手王菲,因此返回关于歌手王菲的相关信息。有了大数据支持,返回的还有分析而得的和王菲关联的人士情况,如页面右部所示(点击放大后如图6所示)。

  通过大数据分析还可以对文档自动摘要,甚至可以将搜索到的所有文档内容做个总结。图7展示点击第一条信息的Summary后系统自动给出该文档的摘要。如需所有文档的总结,只需点击页面中的WholeSummary即可。

  可见,在大数据分析支持下,智慧搜索可以展现强大的功能。

  在SmartSearch中在几个方面使用了大数据分析技术:

  1) 大数据分析确认用户请求表达的真实意愿

    2) 大数据分析获取网络文档的语义信息

    3) 将用户请求的语义信息和网络文档的语义信息准确比对

    4) 将比对后选出的候选文档实现语义扩展和延伸搜索

    5) 将结果文档合理排序

    要从一位用户输入的查询词上获悉其确切的语义需求,需要对海量的用户历史查询请求进行挖掘和分析,弄清用户输入请求,获得结果,然后重新构建查询,获得结果……一直到用户停止重新构建查询为止。停止重新构建查询表示,用户对结果满意了。初始查询的真实含义就是最后查询表示含义,搜索系统通过分析就可以把最后查询认可为用户的需求。这样,借助于历史数据分析,智慧搜索系统可以获知用户的行为特征,其对词汇感兴趣的的对应概念,从而用户只要一次输入查询,就由系统自动按对应概念去搜索,效率提高,用户方便。

  举例来说,第一次用户输入“长城”,搜索系统返回的结果如图1,用户不满意。从而用户重新构建查询:“长城∧建筑物”.搜索结果,用户满意,从而停止重构查询。这样,系统可以根据用户搜索的历史行为大数据(如Cookie数据),在用户第一次给出查询请求“长城”时,直接通过分析知道,用户的要求是查询作为建筑物的长城,从而返回建筑物长城的信息。无需用户不断重构查询,大数据分析的优势就展示出来了。限于篇幅,细节另文介绍。

  三、智慧搜索的实现

  为了基于大数据分析实现前面要求的功能,必须扩展传统的搜索引擎。要扩展用户接口系统,必须增加分析推理机制。图8是智能扩展的示意。

  这里,在搜索引擎上扩展了几个核心成分:语义扩展的查询接口(Semantics extended QueryInterface),语义支持系统(Semantics SupportSystem),推理系统(Inference System)和本体系统(Ontology System)。

  ●语义扩展的查询接口用于分析用户请求,确定用户请求的语义,绑定到确定的概念或对象。

  ●语义支持系统是一个基础语义处理模块,为语义分析做支持。

  ●推理系统是一个推理引擎,为语义分析和知识处理服务。

  ●本体系统用于知识表示和处理。知识可以用本体来描述,本体由本体系统来管理。本体可以用一个有向图(DAG)来描述。节点表示概念,有向弧表示概念间的关系,如男人和女人可以描述为两个概念,他们间的关系-夫妻,可以用这两个节点间的(双向)有向弧描述。知识库(KB)存储用户可能感兴趣的概念和概念/对象间的关系。这里,知识被分为静态知识和动态知识。静态知识指的是直接存放在知识库里的知识,动态知识指的是从互联网上直接挖掘的知识,挖掘来的知识接下去就保存在知识库里,变成静态知识。

  SmartSearch的基本结构可以用图9来描述。

  SmartSearch在开源系统Hadoop上实现。为了实现有效的数据管理,使用了分布文件系统(HDFS)和SQL/NoSQL数据库技术,管理搜索来的文档索引、文档库、知识库和其他数据。为了应付海量计算的需求,这里采用了MapReduce技术,即计算需求会自动分解成一系列子计算,让许多计算节点一起计算,这就是Map过程。然后,每个计算节点的计算子结果搜集起来归约成总的结果,这就是Reduce过程。这种计算方式并行度高、可伸缩性强、对计算节点要求低,可解决大数据数量大、分析计算量大,传统计算基础难以支撑的困局。

  几个基本构件说明如下:

  ●基于Apache Nutch1and Solr2,我们构建了一个搜索引擎内核(Search Engine Kernel)。Nutch是一个开源搜索软件,用Java实现,Solr也是一个开源搜索软件。前者用于实现爬虫抓取,后者用于索引管理和基础管理。基于Nutch和Solr实现的搜索引擎内核负责去互联网抓取数据、取来后自动构建索引存入本地索引库和文档库。在用户查询时,提供索引服务,借助于索引直接在本地文档库里找到相关文档。在SmartSearch中,搜索功能得到了扩展,不再像传统的搜索引擎那样,从索引去找文档,而是从用户查询中意味的概念去找文档,把语义充分地反映出来。这是借助于图中的QuerySemantic Extension模块实现的。

  ●语义扩展查询接口(Semantically ExtendedQuery Interface-SEQE)和知识支持系统(KnowledgeSupport System)用于对用户查询的语义分析和语义扩展,处理后的查询交付给内核。系统还设计了第三方接口,如基于本体大数据的分析接口。

  ●查询语义扩展模块(Query Semantics Extension(QSE)Module)和知识支持系统(KnowledgeSupport System(KSS))用于语义扩展,QSE利用大数据技术借助于上下文、用户特点、用户行为和查询历史(e.g. Cookies)分析用户查询,将用户请求的词汇绑定到具体概念或对象。这里的知识库是一个自扩展系统。

  ●本体系统是知识表示的基础,具有可伸缩、自反、自生长和可管理的特点。推理引擎则是一个基于规则的知识推理系统。为了大数据分析和知识获取,如何表达知识十分重要。本体是近来十分热门的话题,可以用来描述概念的语义和知识,因此SmartSearch是在一个高效的本体系统上实现的。

  四、结语

  SmartSearch在技术上有很大突破。首先实现了海量文本数据挖掘与分析。借助于文本数据的分析结果,可以获得网络上的海量文本数据的语义信息。借助于深入的关联分析,对网络文本信息里涉及的用户关心的对象,可以进一步深入挖掘,从而获得对象的关联对象信息和关联特征其次,实现了用户请求的语义分析,借助于大数据分析技术,自动洞悉用户输入词汇的目的、语义和蕴含信息,使得搜索结果符合用户意愿,提高了搜索的查准率与查全率同时,借助于大数据分析,可以对返回的结果自动摘要,也可以对所有返回的文档做归纳摘要,方便了用户,也为后续的进一步智能加工奠定了基础。

  参 考 文 献

  [1]Junzhong Gu. Semantics Oriented Web Searching,International Journal of Database Theory and Application[J].Vol. 6, No. 4, August, 2013.

  [2]Shen, Yitao. Gu, Junzhong. Diao, Lijuan. Using Seme BasedGraph to Estimate Chinese Lexical Semantic Relatedness[C].

  Proc. 5th International Conference on Information Scienceand Applications, May 6, 2014 - May 9, 2014, Seoul, Korea.

相关标签:
  • 报警平台
  • 网络监察
  • 备案信息
  • 举报中心
  • 传播文明
  • 诚信网站