学术堂首页 | 文献求助论文范文 | 论文题目 | 参考文献 | 开题报告 | 论文格式 | 摘要提纲 | 论文致谢 | 论文查重 | 论文答辩 | 论文发表 | 期刊杂志 | 论文写作 | 论文PPT
学术堂专业论文学习平台您当前的位置:学术堂 > 图书档案学论文 > 文献检索论文

人物搜索概念在图书馆工作中的应用

来源:学术堂 作者:姚老师
发布于:2015-06-16 共5374字
摘要

  0 引言

  汉语“文献”一词最早见于《论语·八佾》,元代马端临将其用作书名编成《文献通考》,把“文”释成典籍,把“献”释为贤者. 由此可见,文献的产生与传承是无法脱离人而独立存在的,与人的见闻、言论以及他们所熟悉的各种礼仪和自身的经历密切相关。

  人, 作为社会性的智慧动物, 是生产信息的基本单位,若能以人为切入点,进行文献整理与信息资源的组织加工,从而提供对象级别的检索服务,将会为图书馆读者阅读服务提供新的方法和思路。

  目前,人物搜索在互联网上已有广泛应用,如微软亚洲研究院 2008 年推出的人立方、雅虎人物搜索、chinaren 中 国人同学录搜索、百度空间搜人等都属于人物搜索产品。其中“人立方”和“雅虎人物”上线较早,是人物搜索的代表产品,“人立方” 凭借微软强大的检索技术和直观绚丽的视觉展示成为该领域的领军产品。 人物搜索这个年轻却极具创造性的搜索技术越来越受到人们的关注。然而到目前为止,该技术尚未在图书馆领域引起广泛重视。

  笔者认为, 将人物搜索概念引入到图书馆工作中,不但为图书馆组织、整合、集成和展示信息资源提供全新方式,而且为图书馆研究读者行为,收集读者信息, 掌握读者阅读主题并推行基于作者的书目推荐等服务工作提供全新方法。

  1 人物搜索主流产品的对比

  1.1 人立方

  人立方根据搜索关键词和与其相关的人名之间的关联度强弱自动的计算每一个人名与关键词直接的距离、数据大小以及具体的摆放位置等等,并通过一条标明了人际关系的细线连接他们, 展示其社会化关系。

  微软亚洲研究院研究员聂再清博士介绍, 人立方关系搜索从超过十亿的中文网页中自动的抽取出人名、地名、机构名以及中文短语,并且通过算法自动的计算出它们之间存在关系的可能性;同时,人立方关系搜索还索引了支持它们之间关系的网页文字。此外,人立方关系搜索还自动的找出人名之间最可能的关系描述词、与人名最可能相关的称呼、作品等词条。 人立方关系搜索从这些中文网页中自动的辨别出人名所对应的人物简介文字, 并且按照这些文字是人物简介的可能性进行排序。 人立方关系搜索引擎深度挖掘互联网信息, 通过对海量网页中的人名、地名、机构名的抽取,并对其有关的信息进行相关度计算并排序,将搜索结果用直观、动态、可视的方式展现在用户面前。

  目前, 人立方提供了展示人的社会关系的结构图景、描述人的社会关系、相关事件的具体内容和揭示人的社会关系的动态进程等核心功能。 其中社会关系图景包括和检索对象有关的人物、 地点和机构三个类别的关系信息。 人立方运用可视化技术绘制人物关系图来直观显示各人物之间的关系情况。 如图 1 为关键词“魏大威”的人物关系图。

  人立方是将具体的人作为信息搜索的逻 辑 起 点 , 把与此相关的信息 收 集 起 来 ,通过特殊的算法, 将收集的信息按照相关的密切程度进行级别分类, 其检索结果力图展示与搜索对象相关的各种信息之间的时间与空间关联, 从而描述出相关互联的人与事在不同时间和空间的存在于变化的真实状态。这样的搜索逻辑,不仅提高着人们收集和查阅信息的有效性, 而且启迪着人们对所需信息的认知广度和深度。

  1.2 雅虎人物

  雅虎人物搜索以网页搜索为计算基础, 基于传统搜索的信息挖掘技术, 将人和人之间的关系抽取出来,针对知名人士给出围绕知名人物的丰富信息,包括人物简介、人物关系等娱乐化内容。可以根据指定关系查看详情,点击人物关系圈中的一个关系人,就可以查到以被点击的人为中心的关系圈; 如果点击其中一个关系,可以查到这个关系的详细情况。如图 2 为雅虎人物搜索返回的“王志庚”的人物关系网络。 图 2 的人际网络图给出了人物关系,如“中国国家图书馆”,同时给出雅虎计算得出的同名信息。 用户可以查看“王志庚”的个人资料、资讯、图片等信息,还可以添加评论。

  点击任意人际网的连线, 即可获得连线相关人物关于此连线关系的信息。 如图 3 为王志庚和任继愈的连线关系信息。 雅虎给出此条信息的来源并分析其可信度。关于雅虎人际网的连线关系,大多以机构、政府或共同有联系的实体名来命名。如图 4 任继愈的人际网关系分别为 《中国哲学史》《永乐大典》《周易》等。

  1.3 人立方与雅虎人物的对比

  (1) 查全率。 实际搜索结果证明:对于指定的人物,人立方的查全率略高于雅虎。某些在人立方可以检索到的人物, 如对中国科学院国家科学图书馆张智雄教授的检索,在雅虎没有返回结果。此检索结果与人立方和雅虎的搜索范围有关。 人立方的人物关系检索是基于 10 亿中文网页进行的,即只要是在互联网上公开留下痕迹的人物, 都可以通过人立方检索获得该人物的相关信息, 而且给出的是网状关系图,即与检索对象关联的人物关系会同时给出。雅虎的人物搜索范围相对窄些, 且只给出与检索对象有关联的人物的线性关系。

  (2) 准确度。 人立方人物关系图中每个圆圈表示的人物名字更贴近实际,相比之下雅虎差异略大。如图 2 中显示的与王志庚有关系的人包括 “特藏”、“库里”等,点击关系名字会发现“特藏”和“库里”只是在某网页中与“王志庚”并存,却被当人名提取出来,这与检索技术有关。

  (3) 展现方式。 人立方采用可视化的“宇宙图”展现人物关系, 关系的密切程度及关系得出的依据清晰可见。 人立方用时间轴动态展现人物时刻变化着的社会活动信息,跨越空间和时间障碍,真实的反应人类社会活动的全面信息。 雅虎的人物关系可以动态反应,未提供以时间轴查看信息的服务。

  (4) 重名问题。 人立方目前在人名重名的处理上还有待改进。在人立方的关系图中,或者只有其中一个最出名的人的关系图, 抑或是两个或多个相同的人同时出现在一张关系图中。 这是由于人物关系抽取时,人物唯一标识未能很好处理,只有解决了同名不同人、同人不同名的问题,才能提高人立方的检索精确度。雅虎在此方面做了尝试,力争在一个人际网中只显示一个唯一人物的关系网, 而将同名信息清晰的显示在关系网的下面,如图 2 所示。

  2 图书馆原有人物搜索的含义与不足
  
  2.1 图书馆原有人物搜索的含义

  图书馆在进行读者服务时已使用了基本的人物搜索技术, 区别在于图书馆的人物搜索概念相对狭隘,未对文献全部文字内容进行索引,仅针对文献的作者进行搜索。随着全媒体服务的推进,读者利用平板电脑、手机等移动终端阅读电子文献的需求日益增强, 促使图书馆将传统图片格式的电子书转换成文本格式供读者随时随地的阅读, 这种转变也为文献内容涉及的人物索引提供了条件。

  随着数字图书馆建设步伐加快, 新技术飞速发展, 图书馆提供的文献资源服务远远超出了馆藏目录的范围。 自建数据库、外购数据库、共建共享的资源乃至互联网上的部分资源都正在或即将为读者所用。 面对如此庞大的信息来源,引入人物搜索技术,将众多文献的创作者和文献中记载的人物相关信息加以组织利用, 将产生图书馆资源新的组织整合方式,并为读者阅读服务提供新方式。

  2.2 图书馆原有人物搜索的不足

  传统的基于文献作者的检索服务, 包括纸本资源、电子资源和音像资源的检索,其检索结果均为多个独立的文献信息。以纸本资源为例,在检索框输入“图书馆学”, 其返回结果为与检索词匹配的着作信息。此类检索是基于文献书目数据进行的,这些数据在系统中孤立存在,并未建立起任何联系。如果读者想获取大量的资源, 就需要不断的尝试新的检索词和检索字段进行多次检索,即便这样,搜索得到的文献也未必能满足读者的需求。

  此时,若能智能的分析文献和作者的联系,分析文献内容中的人物关系, 通过极少次数的检索返回尽可能多的文献信息的检索服务便成为用户最期待的图书馆服务之一。

  随着网络技术飞速发展, 信息量已成几何级数增长的今天,各个信息单元已不再孤立,它们彼此之间存在着错综复杂的联系。若能以人为切入点,进行对象级别的信息搜寻,势必将帮助人们更快、更全面的获取信息, 同时为图书馆组织与整合信息提供新方式。

  3 人物搜索在图书馆中的应用举例

  3.1 “人名节点”的引入

  利用计算机技术对图书馆的海量馆藏资源进行深度的数据挖掘、分类、排序,抽取作者、文献名称、关键字、摘要、机构名以及中文短语,并利用智慧的算法自动的计算出它们之间存在关系的可能性,并对关系类别进行分析;与“人立方”对网页进行分析类似, 图书馆对数字化资源进行全文识别, 对其题名、作者、机构、摘要、关键词、参考文献以及全文进行语义分析,并自动的找出作者之间的关系描述词、与人名最可能相关的称呼、作品等,自动抽取出人物简介并根据相关性对人名进行去重处理, 形成以人名为节点的知识网络,如图 5 所示。

  图 5 以中国科学院国家科学图书馆的张智雄教授为例,说明“人名节点”的应用。在关系检索框中输入“张智雄”,系统将自动返回张智雄的人物关系网络。 如张智雄的导师(博士导师、硕士导师等),张智雄的学生(博士,硕士等)。垂直方向表示他的师生关系,如沈英为张智雄的博士导师,则 “沈英”的位置在“张智雄”的垂直正上方;其学生则在他的垂直正下方显示, 水平方向表示同为学生的关系, 如曲云鹏、林颖等同为张智雄的学生,也可根据需要按时间先后显示学生关系。

  3.2 读者行为信息收集与利用

  目前, 图书馆在办理读者卡时已掌握了一定的读者信息,如读者 ID、姓名、性别、年龄、地址信息、学校、学历和电话号码等。 读者通过 ID 认证登陆图书馆网站后,会产生一系列的文献检索和阅读行为,如该读者浏览过的数据库、 知识库, 检索过的关键词,下载过哪些文章,阅读过哪些文献,在 Library2.0服务产品中有过哪些评论和留言等。 读者的这些行为信息非常宝贵,如果将读者在一段时间(如一个月或半年)内的行为汇总整理,便形成个人详细的信息库。利用计算机技术,可分析读者在特定时间段感兴趣的文献主题、文献类型,了解该读者的大概阅读时间段和平均每天的阅读时间等信息, 有助于图书馆根据读者的需求有目的的进行主题推送服务。

  对读者进入图书馆系统的日志信息进行深入的数据挖掘, 研究读者关心哪些人物内容或哪些作者的文献,从而分析读者本人的研究背景及领域,为读者建立自己的档案信息库, 并采用计算机智能的自学习技术不断调整信息库的内容。 充分了解读者需求, 才能有针对性的向读者提供更好的主题推荐和书目推荐服务。

  3.3 参照读者阅读信息,提供阅读多样性服务

  通过建立每位读者档案库, 我们了解了读者的阅读信息。将全部读者信息库作为原始数据信息,利用计算机技术对原始数据进行组织整理和数据挖掘,再利用模式识别技术进行分类,归纳某类读者的阅读行为特点,以指导图书馆的阅读服务。如通过计算可得出:多少比例的读者倾向于经典阅读,一般在什么时间进行经典阅读,这些读者属于哪个年龄段?

  掌握这些信息, 图书馆便可有目的的建立相应的经典阅读阅览室, 并结合阅读时间和年龄特点提供相应的服务。

  3.4 基于作者的书目推荐服务

  书目推荐的一种重要方式是按同一作者或研究领域有直接关系的作者群的书目推荐服务。 同一作者的研究领域一般较为固定, 有直接关系的作者如师兄弟或导师和学生关系的作者, 其研究领域较相似。读者的阅读主题在一段时间内一般较专一,此时向读者推荐相同作者的书目或相关作者的书目,便为读者提供了极大的便利。

  4 人物搜索对图书馆服务的意义

  4.1 提供崭新的资源聚合方式

  以作者为出发点, 将独立的文献提供变成互相关联的众多文献的联合展现, 为图书馆组织文献创造新方式。传统图书馆采用主题聚合方式,人物搜索的出现, 提示我们可以以人作为信息资源聚合的基本点,为图书馆读者服务工作提供了新的思考范围。

  4.2 形成相同研究领域圈

  目前的互联网技术越来越强调“圈子”的概念,如百度的社区产品贴吧, 百度空间等都属于这类服务。通过建立不同的贴吧主题,相应的建立了多个不同主题的圈子, 网络用户自觉跳进自己感兴趣的圈子;百度空间的圈子沉淀不如贴吧明显,其联系纽带是作者的 blog, 对相同 blog 内容感兴趣的人们聚到一起,互相讨论交换意见。贴吧和空间是人主动搜索圈子的过程,并且他们希望存在这样的圈子。

  图书馆的人物搜索实现了众多领域的圈子的自然形成。 依赖计算机技术, 自动的进行文献知识挖掘,将同一领域的作者、文献、领域简介等知识汇聚起来, 自然沉淀为一个知识圈子。 为读者提供多维度、更小粒度的领域知识,提高读者索取文献的全面性和准确度。同时也为图书馆全面实践 Library2.0 提供广阔的平台。

  4.3 促进读者形成良好的阅读习惯

  良好的阅读习惯有读者内因的作用, 同样也与阅读环境有关。 前面介绍的人物搜索在图书馆阅读服务中的应用,可以帮助读者养成良好的阅读习惯,通过书目推荐服务,让读者更便利的获取所需资源。基于读者阅读信息的阅读多样性服务, 让读者感受到更贴心的图书馆服务。还可定期举办书友会,为读者和作者之间架起一道沟通的桥梁, 促进读者阅读的兴趣。

  4.4 建立知识体系

  图书馆的人物搜索对文献的作者、机构、刊名、关键词、内容摘要和引证关系进行分析,形成清晰的知识脉络图。将文献的内在关联信息,用直观可视化的方式展示给读者,知识体系完善,脉络清晰,省去了读者大量的文献搜索工作。

  5 结语

  虽然目前还只是起步阶段,技术还不成熟,但只要我们做出努力,不断探索,相信人物搜索会在数字图书馆领域得到很好的应用和发展。

  参考文献:
  [1] 文 献 [EB/OL]. [2013 -04 -16].
  [2] 微软亚洲研究院关系搜索研发小组。 微 软人立方 :时间轴上的关系搜索 [EB/OL][2014-12-01].
  [3] 高 钢。 绘制人的社会 关系信息图景的尝试及意义[J],国际新闻界,2009(5):80-85.

相关标签:
  • 报警平台
  • 网络监察
  • 备案信息
  • 举报中心
  • 传播文明
  • 诚信网站