5.3 高职院校图书馆发现服务的技术手段。
5.3.1 资源发现中的技术手段。
资源发现服务是一种在大数据时代中产生的的元数据库搜索服务,数据融合和语义检索、跨机构的关联数据开放和服用以及分布易购系统的关联访问,都是通过支持关联数据的图书馆自动化系统来实现的。目前,中外各国采用各种类型资源发现系统的图书馆或信息机构的数量已超过 1300 家。其中比较突出的有 WorldCat Local(WCL)、Summon、Primo Centra 及 EBSCO Discovery Service (EDS)。近年,资源发现服务系统也陆续在我国高校图书馆得以应用和实践,发展较好的有清华大学图书馆的"水木搜索"、北京大学图书馆的 "未名搜索"、上海交通大学图书馆的"思源探索"、厦门大学图书馆的"厦大学术搜索"、兰州大学图书馆的"翠英学术搜索"等[6].此外,超星发现、万方学术搜索、CALIS 的 e 读以及国家图书馆自用的文津系统等也应运而生,并且发展态势良好。
高职院校图书馆应借鉴高等本科院校图书馆的资源发现服务应用现状,结合"校企合作"教育模式的特点,选择合适的发现服务系统,根据自身特点完善发现服务系统建设。本研究将从预索引元数据仓储的完善和非正式学术信息资源语义化两个方面来对发现服务中的资源发现部分展开研究。
(1)预索引元数据仓储。
预索引元数据是一个涉及到各个异构、分布的复杂跨库检索平台,需要设计合理规范的工作流程。预索引元数据应用是针对异构数据进行管理和描述,各个异构数据属性描述和管理要求不完全相同,因此,在对预索引元数据设计时,主要通过对资源的特点、范围以及资源使用的标准的分析,准确地描述资源对象的属性集。资源分析是对元数据结构与语义描述的分析。
根据高职院校图书馆特色馆藏建设的要求,并根据元数据仓储的基本服务功能,运用元数据仓储技术来构建特色馆藏数据库。
充分有效整合相关资源是高职院校图书馆特色馆藏数据库的建设目的之一。在特色馆藏数据库建设之前,第一步要开展资源规划工作,用以确定特色馆藏数据库中资源的来源、类型、采集方式及接口、元数据规范及开放协议等。
资源建设环节包括选择、采集、加工到审核入库的过程。当中的元数据建设是主要的环节。根据元数据规范模板,采集不同来源的资源的元数据信息,元数据仓储系统可自动对元数据进行采集、审核并存储。
类集组织是根据特色馆藏数据库中的每个栏目或主题,通过对行业词表、专题分类、分类规则、聚合规则等规则,以及元数据仓储中的全文检索、关联分析、规则解析等功能,自动检索、分类、帅选和重组元数据内容,形成有统一特点的数据集合。
个性化服务是利用特色馆藏数据库平台为用户提供个性化的信息服务。除了在数据库平台界面上有特色鲜明的设计以外,更加注重为用户提供个性化的资源发现、获取和利用服务。满足用户基本需求的同时,提供资源分类、全文获取、需求排序,关联资源以及个性化的知识发现等服务。
(2)非正式学术信息资源语义化。
博客的出现,为人们所广泛传播,表明网络非正式学术信息资源具有文化价值的一面。其中,科学研究交流的平台-科学博客,成为科学界与公众进行科学知识交流的重要工具之一,是科研工作者、科学家及科学爱好者之间的一个很好的互动平台,科学博客的出现促进科学知识的交流与传播。但是网络上的博客资源,质量参差不齐,挖掘高质量的博客资源成为图书馆收录网络非正式学术信息资源的主要任务[20].
5.3.2 知识发现中的技术手段。
知识发现也称为知识挖掘,有广义和狭义之分,数据库中的"知识挖掘"是指狭义的知识发现;通过技术手段对数据库内外的知识进行系统的分析、挖掘、发现和利用,筛选出有潜在价值的没有被挖掘过知识资源,这一过程是广义的知识发现,包括隐性关联知识发现、非相关文献知识发现以及数据库知识发现。
馆藏文献标引的质量和效率能直接关系到知识发现的效果;知识抽取不仅是知识发现的前提和基础,也是提取有效知识的一项技术性工作;内容分析法、供词分析和聚类分析、关联理论分析、领域知识挖掘和领域驱动知识发现都是图书情报分析、文献计量、分类编目和目录学的理论方法的发展。因此,知识发现服务是图书馆分内的工作,是图书馆学科的一个分支。
(1)内容管理技术。
内容管理技术主要是对关系数据库所处理的结构化数据和类如文字、文档、web 网站内容等非结构化数据进行科学的整合,包括运用采集、管理和传递等方法将结构化和非结构化数据集成到信息系统中,做统一管理以便后期使用[21].非结构化数据数量大,存储方式和数据集合多样化,所以处理起来相比结构化数据有一定难度,通常采用 KDT中的技术,通过"文本预处理-特征表示-特征抽取-数据挖掘"这一过程,将非结构化数据转化成结构化数据,最后集成到结构化系统中。
(2)信息抽取技术。
大数据时代,信息抽取技术就是指能够在大量的信息资源中,迅速并准确的筛选所需信息,并发现其有使用价值一面。信息抽取技术对文字、文档、web 网站内容等非结构化数据进行整合,并自动抽取所需信息并存储到信息系统中,使之形成结构化数据,这一过程是知识发现的基础。
(3)信息过滤技术。
优化技术即信息过滤技术,是知识发现中的重要的技术之一,通过对信息的过滤,对冗余信息的剔除,将有效的信息提供给用户。信息过滤技术包括对信息源以及处理结果的过滤和选择。在图书馆信息整合的实际工作中,通常会选用对处理结果的过滤和选择,这样就在一定程度上减少对原始信息的摒弃,能够提高过滤结果的效率。
(4)数据挖掘与文本挖掘技术。
数据挖掘技术是帮助用户从大量的无规律的数据间提取潜在的有用的信息和知识的过程。数据库技术、人工智能技术及网络技术的不断创新和发展,产生数据挖掘技术,并逐渐发展到发展到能够对数据库进行访问和查询,发现数据之间的潜在关联,对信息的传递起到促进的作用。数据挖掘技术有多种分析方法,本研究将通过决策树法、神经网络法、遗传法以及可视化分析方法来研究知识发现技术。
决策树法是为了做出某一决策而进行的一系列判断过程而建构的树形图,决策者可以对任意数据进行判断,获得决策支持。
神经网络算法是一个通过对连续或者断续方式的输入作状态相应而进行处理的,一种以有向图为拓扑结构的动态系统。
遗传算法是一种模拟生物进化过程的算法,是寻优和优化的过程。例如不同学科之间的交叉重组后,能形成具有新特征的新学科;显性知识和隐性知识之间的相互转换。
可视化分析方法是用图形将数据库中的多位数据表示出来,能够清晰揭示数据之间的内在联系以及分布规律,可以提高数据挖掘的效果。
(5)分类分析与聚类分析。
知识发现中,分类分析是一种重要的技术,主要分为结构化数据和非结构化数据的分类方法。结构化数据的分类过程首先是进行数据清洗形成数据集,然后通过标注将数据集归为训练数据集和测试数据集两类,然后将训练数据集采用某分类算法构成分类器模型,将测试数据集采用某评估方法对分类器模型进行评估,将其分到某个类别中。非结构化的数据的分类过程与结构化的数据类型近似,只是在构造和评价分类器的过程中一直存在着非结构化数据向结构化数据转换的过程[21].
文本数据分类所处理的是非结构化或半结构化的数据,首先通过信息检索分析找出非结构化或半结构化的数据的主要关键词,然后对分析出的关键词,进过分类形成概念层次,再通过关联挖掘法来区分不同类别的文档,这样不同类的文档的关联规则就得以导出,此后,新文档就可以用这样的规则分类。
聚类分析有别于分类分析,聚类函数是通过信息资源的的特征来进行分类,使信息资源间的规律展现出来。聚类方法主要分为层次聚类和非层次聚类,层次聚类主要有合并发、分解法、树状图,非层次聚类主要有划分聚类、谱聚类[21].
5.3.3 用户发现中的技术手段。
图书馆通过对用户访问认证、借阅情况和用户需求等用户信息的统计分析,来开展图书馆管理与服务工作。通过对用户的知识需求和知识行为信息等用户信息发现,可建立"个人信息档案"用于用户信息与研究项目的关联,来开展个性化的知识服务。
(1)用户信息发现过程。
本研究所指的用户信息,是指用户注册信息以及用户检索行为记录信息,包括用户注册信息和登陆信息、用户活动信息、用户调查信息以及用户检索语言使用情况等,从这些数据的分析可以得出用户的阅读偏好和兴趣、认知类型、使用方向以及检索时间等,间接揭示用户智力和经验[22].因此图书馆应将对用户知识需求和行为信息的记录形成的用户信息数据库,运用知识发现技术对其进行整合。本研究对用户信息数据库设计。
高职院校图书馆用户由本校师生拓展到企业用户,在对师生和企业用户信息及检索过程记录的基础上,对用户信息库及用户行为信息记录库进行预处理,形成目标数据库,再通过对目标数据库进行分类和聚类分析、关联分析以及序列发现等技术操作,生成具有指导性的用户信息模型库,最终建立提供用户个性化服务的知识库。
(2)用户信息发现过程实现。
用户信息发现过程的实现主要有三个步骤,第一步是对用户信息库及用户检索行为信息记录库的建立及预处理,第二步对于目标数据库进行分类和聚类分析、关联分析、序列模式发现等处理,第三步是建立用户信息模型库。
①用户信息及用户检索行为信息记录库的建立和对图书馆的用户注册信息、用户登录信息等的预处理,受用户信息需求情境的影响,形成用户信息库。用户交互信息、检索日志文件以及用户检索表达式的影响,形成用户检索记录数据库。利用推理及分析处理用户信息需求情境,从用户信息库中提取出用户兴趣、偏好、兴趣、认知以及经验和智力等特征[22].运用动态搜索引擎的功能跟踪图书馆服务功能,通过记录大量的用户交互信息以及检索日志来形成用户检索过程记录库。最后对用户信息库和用户行为信息记录库进行数据精华预处理,利用的是智能过滤、兴趣识别、访问登记等搜索引擎功能,经过预处理后形成的目标数据库。
②分类和聚类分析是一对互逆过程。分类是利用分类规则将数据库中的数据项映射到给定的类别中;聚类是在没有预先给定类别的前提下,把数据分成不同的组集,同一组集的数据是相似的,而不同组集的数据差别尽可能地大。利用分类和聚类分析方法将净化过的用户信息库和用户行为信息记录信息库通过预处理所形成的目标数据库中的所有信息进行群分[22].建立用户角度的知识库,可以推动个性化的知识服务。
③关联分析是揭示一个事物中某些属性同时出现的规律和模式。序列模式是揭示事件内部及时间上的相关性。用户交互信息、检索日志的关联和序列模式,可以揭示发现用户的检索取向和检索习惯,从而指导数字图书馆的平台建设,节约用户的检索时间的同时,简化用户的检索步骤,更能智能地推送符合用户检索需求的检索条目[22].
5.4 馆员队伍建设。
5.4.1 角色定位。
高职院校图书馆馆员具有多重身份和角色,及要参与校方的学科化建设,又要参与企业方的竞争情报和技术创新改革之中。
(1)学科馆员。
学科馆员要参与各种资讯服务中去,通过不断的学习新知识新技能,全面了解图书馆资源与服务最新进展,为对口专业师生提供专业的信息咨询和辅导。学科馆员要主动将图书馆服务信息传递给用户,并对用户的信息素养作培训[23].
在学科建设方面,学科馆员要深入研究相关学科的资源情况,参与资源的整合,同时参与网络资源的整合。通过与各专业的畅通联系,促成图书馆参与到专业建设中去。
除此之外,另一重要任务是协助学校相关机构进行学科发展和建设的评估,参与相关学科的科技查新,为对口专业的重点学术研究提供文献信息的保障。
(2)企业信息情报专员。
高校图书馆除了具有大量的文献信息资源外,还具有专业的人力资源,图书馆员专业背景多是图书馆情报专业及计算机人才,他们以丰富的经验和敏捷的思维,能够积极参与到信息市场竞争中。他们不但能够根据企业的需求,借助现代化的设备,运用科学的技术手段,收集如竞争对手专利信息、财务数据、新产品开发信息、市场营销信息等,此外,还能够对挖掘到的原始数据进行分析并整合成一套知识管理,在分析中可形成分析报告企业进行决策。企业的运营经图书馆员的参与后,势必得到更好的发展。
5.4.2 专业技术的培训。
(1)资源发现系统的利用。
资源发现服务系统最常见的是在学术研究中的应用,它具有普通图书馆系统不具备的功能。例如在选题过程中,发现系统具有考镜学术源流、海量元数据仓储、学术研究趋势分析等功能模块;区别于传统检索系统的最核心的可视化学术分析可以将海量数据之间的规律和整体面貌以表格或者图形的当时直观的展现出来,能够为进一步追踪、拓展和创新该领域的研究提供思路;资源发现服务系统还可对学术研究项目成果进行科学管理,通过多维分面聚类功能来实现文献资源的精准化检测和统计,另外,还可以利用立体引文分析对制定的文献资料的引文进行自动分析。
以上的资源发现服务系统功能均需要图书馆馆员的熟悉掌握,图书馆应定期对馆员开展专业的技术培训,以保证图书馆信息资源发现服务系统的使用和其功能的实现。
(2)馆员与企业一对一合作。
高职院校独特的办学模式使图书馆馆员增加一个角色:企业竞争情报员。作为高职院图书馆和企业之间的桥梁,图书馆馆员必须具备一定的图书情报知识的同时了解相关行业的市场行情。通过信息资源发现系统内的大量信息资源,能够运用科学的技术手段挖掘企业需求的信息,并对市场行业情况作专业的分析,提高企业在市场经济中的竞争优势。
高职院校图书馆在对馆员的竞争情报技能的培训方面,应把馆员"赶出去"到合作企业实地实时了解企业对信息检索服务的需求,并深入行业收集合作企业的竞争对手各方面信息。通过馆员与企业一对一合作深入的接触,挖掘对合作企业发展有利的信息并合成知识管理,以分析报告的形式提供给合作企业,供企业管理者决策。