摘要:以化学资源检索系统为例, 分析图书馆化学资源检索系统面临的困境, 在此基础上从宏观建设、技术支撑、系统确定3个角度提出检索系统的架构思路, 旨在为该领域提供新的研究方向, 推进图书馆资源检索系统建设。
关键词:化学资源; 大数据; 数据分析; 思路;
The Framework Ideas of the Chemical Resource Retrieval System in the Library
Abstract:Taking the chemical resource retrieval system as an example, this paper analyzes the problem sexisted in the library chemical resource retrieval system. On this basis, it puts forward the framework ideas, in-cluding the following three aspects: macro-construction, technical support and system determination, whichaims to provide new research directions for the further study in this field and promote the construction processof library resource retrieval system.
Keyword:chemical resources; big data; data analysis; ideas;
化学学科的研究和发展以及相关研究领域的实践应用, 需要查阅和参考大量文献。随着科学技术的发展, 化学知识的广度和深度都在不断扩大, 文献资源数量也急剧增长, 加之数字资源改变了传统信息资源依托的载体和存在方式, 增加了相关主题化学文献查阅和分析的困难。因此, 建立一套完善、科学、有效的化学文献检索系统, 降低化学研究者与工作者的负担等, 成为目前学术界亟待解决的课题。
一、图书馆化学资源检索系统面临的困境
传统的化学文献检索系统主要以期刊文献资源为数据总库, 以主题词表、索引式等不同的主题系统分类, 进行特定化学领域知识的查找与分析。然而随着时代发展和相关文献的大量增加, 化学科研工作者不能快速筛选出自己所需文献, 阻碍了查找资料的效率和研究进程。
目前, 化学资源检索系统主要从文献内容定义化学数据分析, 依据文献外部显着特征加以解析, 辅以数字、符号或多重组合、片语等, 对所记录文献主题进行标引入库, 以此作为数据查询的检索入口。面临的困境主要有以下两点:一是文献构成的丰富与检索数据的对接不通畅。文献资源的构成种类异常丰富, 除去传统的纸质图书、期刊等, 电子资源的比例也在急速增长, 包括电子图书、期刊、网络资源等。因开放数据的使用和发布, 使资源的总量变得不可估量。而在检索数据的纳入上, 因图书馆存在经费、版权、异构数据的技术处理等问题, 大部分资源还未进入到图书馆的检索数据中。二是文献检索需求的广泛与检索入口的限制。文献检索者在面对资源检索时, 因检索目的、个人习惯、知识构成等因素影响, 表现出资源检索的多样化需求, 而检索入口及后台对应的数据搜索方式均存在一定局限, 不能满足文献查找者的检索需求。
二、图书馆化学资源检索系统构建思路
(一) 立足宏观, 重视对大数据的利用和挖掘
2008年, 《自然》 (Nature) 杂志第一次出版了关于“Bigdata”专刊, “大数据”概念开始出现, 并被广泛关注。期间, 最有影响力的当属2011年麦肯锡公司发布的《Big data:the next frontier for innovation, competition, and productivity》 (《大数据:下一个前沿、竞争力、创新力和生产力》) 的调研报告。短短几年之间, 大数据的影响扩展到各个行业。麦肯锡报告指出:“进行大数据研究将会为社会带来巨大的价值”.2012年3月29日, 美国奥巴马政府在其公布的“大数据研发计划” (Big Data Research and Development Initiative) 中, 明确将该研发计划的目标确定为“为了提高以及改善从海量和复杂的数据中获取知识的能力, 加快美国在科学和工程领域研究的步伐, 以此为基础巩固国家安全, 转变现有的教学和学习方式”, 美国政府为该计划投入2亿美元。由此可见, 大数据的影响力度。[1]
对于“大数据”的定义, 目前还没有形成统一的概念。学术界普遍认为, 大数据根据其现象表征和特点, 可以用五个“V”字词语来形容 (IBM提出) :Volume, 大量, 主要形容数据体量巨大, 一般可达TB级, 甚至PB级。Variety, 多样, 指数据种类繁多, 而且来源复杂、格式多样。在数据的构成上, 除了结构化数据, 还有半结构化和非结构化数据。Value, 低价值密度, 即大数据所包含的信息价值与其存在数量呈现低价值密度。一方面, 在海量数据中, 有价值的信息比例较低, 大量无用信息充斥其中;另一方面, 合理运用大数据, 可以以较低成本挖掘到可靠信息, 从而获得较高价值, 数据的可挖掘性较高。Velocity, 速度, 在大数据概念中, 数据的产生量和增长量的速度很快, 同时, 数据的处理速度也很快。Veracity, 真实性, 主要指大数据的质量。大量数据的真实性需要判断。
大数据的出现影响着各行各业的发展, 其带来的社会效应及“以小带大”的价值效应得到了社会各界的一致关注和认同。如, 在商业界, 大数据的关联和分析可以反映出消费行为的模式变迁和发展趋势, 从而寻找新的商机, 做出优化策略及战略调整, 以纠正或改变现有的商业模式, 获取更大的经济效益;在医学研究及临床实践领域, 大数据的采集和分析可以为一些疑难病症的诊断、治疗、研发等提供可靠的数据分析资料;在图书馆领域, 大数据蕴藏信息丰富, 且处理数据速度快, 被广泛应用于文献检索系统, 用来扩充检索信息量, 加快文献检索速度, 提高文献检索效率。
(二) 研判技术的适用性推进大数据相关机制的建设进度
云技术是一种分布式计算方法, 是在广域网或局域网内将硬件、软件等系统资源统一在一起, 进行数据存储、计算、共享等的一种技术。Google公司在其云技术方案中, 提出分布式文件系统 (GFS) 、分布式数据库 (Big Table) 、批处理技术 (Map Reduce) 以及开源实现平台 (Hadoop) .其中, 分布式文件系统是一种基于分布式集群的大型分布式处理系统, 利用数据分块、追加更新等方式实现海量数据的高效存储, 为批处理技术计算框架提供低层数据存储和数据可靠性保障。分布式数据库通过一个多维稀疏排序表以及多个服务器实现对大数据的分布管理, 是云技术的核心, 即通过批处理实现对大数据的分析。批处理技术主要由映射和归约两部分组成[2].大数据时代, 与云技术的产生有很大关联, 脱离云计算的超计算能力, 大数据将无法分析和利用。相比较传统数据保存办法, 如此海量和复杂的信息, 处理难度可想而知, 除无法在时间上及时完成外, 其不可预估的成本也是不可回避的事实。而在云技术的支持下, 分布式文件系统已经成为大数据的传输中心。目前, 云技术中文件系统的存储技术主要包括Google的GFS和Hadoop的HDFS.
集群文件系统的构建原理可以表述为:将一个大数据文件分解成若干子块, 存储于块服务器, 每个块存储对应为相应的元数据, 元数据存储于主服务器, 以此完成一个大数据的存储过程。元数据在主服务器中的保存类型分为3种:一是文件和块的命名空间;二是块的映射文件;三是每个块复本的位置。文件和块的命名空间元数据用于维护文件系统的命名空间, 通过命名空间的查询来查找和定位指定文件和目录的路径等属性信息, 从而找到该路径所对应的相应内容。其中, 关于文件存储位置信息的元数据, 能够准确定位数据块位置的偏移量。在信息检索中, 由于文件信息描述及存储信息的描述存在不一致等错误, 常会误导搜索引擎执行检索工作, 进而影响信息检索效果。因此, 元数据的准确描述相当重要。
(三) 基于需求分析确立系统架构的模块和因素
随着我国信息技术的快速发展, 国内对于化学资源数据的分析系统研究取得了长足发展。近年来, 关于化学数据分析研究的课题逐年增长, 为化学信息资源检索和分析做了大量基础工作。Chem DB Portal化学深层网检索引擎是中科院高性能计算与化学信息学课题组建立的网络化学化工信息资源检索平台, 是利用深层网检索技术实现在线检索多来源数据库的化学检索引擎, 可实现一次查询请求、自动检索多个专业库、统一返回结果等检索过程。目前, Chem DB Portal检索平台索引有约50万个化合物、超过100万种产品信息, 检索过程中, 可同时在线检索十几个化学数据库的数据、MSDS等数据源。在此基础上, 逐步衍生出更多的数据服务, 如建立相应的动态链接、建立原始实验数据资源库、构建基于化学品在线服务等功能[3~6].化学信息管理系统包括两大功能:化学结构检索及文字检索, 具有便于数据库维护、图形存储和中文处理等特点[7].相类似的还有名为MORT (molecular objects and relevant templates) 的函数库, 能够作为计算生物学和计算机辅助药物设计 (CADD) 等相关软件的开发基础[8].但总体来看, 国内对化学数据分析系统的研究起步较晚, 以致于国内化学数据分析系统整体研究成果水平仍较低, 发展进程也相对滞后, 而且少有相关人士进行化学数据检索系统的整体研究。
在对图书馆化学资源检索系统架构的过程中, 现状研究和需求调研十分重要, 应以此为基础确定系统架构的整体方向及模块确立。现阶段, 可以把图书馆化学资源检索系统的模块拟定为4个:检索模块、数据处理模块、系统维护模块、统计分布模块, 围绕模块建设架构整个资源检索系统 (如, 确立服务器端和客户端、联立化学文献数据库等) .
三、结语
随着文献资源数量的指数式增长, 大数据分析系统研究已经成为文献检索系统的趋势, 其系统架构所带来的检索效应、对相关学科的推动作用已经得到了学术界的广泛认同和关注。以化学资源检索系统架构为研究点, 从检索策略、检索技术、检索环境等入手进行系统搭建, 对推动化学研究检索效率及学科建设进程有重要影响。结合该研究的跨学科性、交叉性、技术支撑性等特点, 研究进程仍需要更多的人付出努力, 希望通过上述研究思路的呈列, 对该领域研究提供有益帮助。
参考文献
[1]刘言, 蔡文生, 邵学广。大数据与化学数据挖掘[J].科学通报, 2015 (8) :694-703.
[2]陈近, 文庭孝。基于云计算的图书馆大数据服务研究[J].图书馆, 2016 (1) :52-56.
[3]Chu C M, Li X X, Guo L.Directed Query Engine Ap-plication in the Integrated Retrieval of ChemicalWeb Databases[J].Comput Appl Chem, 2005 (22) :659-666.
[4]Zhuo L Y, Li X X, Guo L.Chemical Deep Web Data Ex-traction with XML-based Technology (in Chinese) [J].Comput Appl Chem, 2006 (23) :1137-1141.
[5]袁小龙, 李晓霞, 郭力, 等。开源软件在化学数据库分子结构检索中的应用[J].计算机与应用化学, 2008 (25) :1143-1146.
[6]刘增才, 李晓霞, 袁小龙, 等。基于SSH+Ext JS架构的化学数据知识框架管理[J].计算机与应用化学, 2008 (25) :1147-1151.
[7]高蕾。基于大数据背景下高校图书馆电子信息资源建设与服务探究[J].西部皮革, 2017 (12) :227.
[8]沈天翔, 李丰, 姚建华。CISOC-Ch IMS:化学信息管理系统[J].计算机与应用化学, 2007 (24) :130-132.