1引 言
大数据,作为1行业近几年兴起的热词和新技术,正以它独有的魔力影响着我们的生活和思维方式。然而,国内绝大多数图书馆对大数据的反应并不积极。"数据即资产"、"数据即服务",数据背后蕴藏着的价值可想而知。图书馆作为文献信息中心,有着海量的数据资源,并不缺数据。从这层意义上讲,在图书馆引进大数据思维,并利用大数据技术来推动图书馆建设已具备了一定基础。国内一些图书馆如清华大学、南京大学、上海交通大学等已开始关注大数据并利用它开展一些服务。有专家分析指出,大数据在未来几年将给云图书馆的服务方式、管理模式等带来革命性的变化。但大数据也是一把双刃剑,它给图书馆带来机遇的同时也不再论大数据在我国图书馆的应用及推进江 云(重庆理工大学 图书馆,重庆400054)可避免地带来了一些问题。本文在探讨大数据对复合图书馆的核心挑战的基础上,结合国内外图书馆实践举措,提出了我国图书馆推进大数据的三种理念:数据觉醒、服务转型、知识发现。以期抛砖引玉,为我国业界推进大数据提供一种思路。
2大数据及其应用
(1)大数据的不同定义
大数据(Big Data)是一个宽泛的概念,见仁见智,目前尚未统一,IT厂商、研究机构、维基百科和数据科学家等都给出了不同的定义,相对而言,笔者更认同后两种的提法。
麦肯锡在其报告《Big Data:The next frontier forinnovation, competition,and productivity》给 出 的 定义:大数据是指大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。Information中国区首席产品顾问但彬认为:大数据包含了海量数据的含义,但在内容上超越了海量数据,即是海量数据+复杂类型数据的数据.国际数据公司(IDC)则从大数据的四个特征定义:海量的数据规模(Volume)、快速的数据流转(Velocity)、多样的数据类型(Variety)、巨大的数据价值((Value).
(2)大数据的两种认识误区
一是机械理解。认为大数据就是指有多少多少数据,或者海量数据如何如何。海量数据虽是大数据的特征,但并不等于大数据。音视频、图片、文档甚至人的行为等都是大数据关心和处理的对象。
二是唯技术论。认为大数据是各种算法组合而成的技术。事实上,大数据和有没有数据、数据量多少、使用什么技术等不正关联。没有新技术,也可通过数据资产来获利;反之,即便拥有最先进技术,缺少数据思维,数据还是数据,没任何价值。
可见,大数据既不等于数据分析挖掘,也不等于人工智能。但技术和算法都需要大数据支持。使用同样的算法,利用全部数据集和小样本量,可得出截然不同的结论,这就是大数据的魅力。可见,大数据不仅是技术,更是思维方式、发展战略和运营模式。
(3)大数据的应用
在云计算、传感网、物联网等技术的推动下,大数据处理的兴起也在极大地推动着信息技术进入到以"分析即服务(Analysis as a Service,AaaS)"为主要标志的Cloud 2.0时代。国内关于大数据的理论与实践研究工作乏善可陈,以Hadoop为代表的HDFS文件系统和MapReduce数据处理框架将结构化、半结构化和非结构化数据有效管理变为现实,Hadoop Common、Chukwa、HBase、Pig等大数据处理添加件、交叉集成件的逐步完善促使"大数据"真正走上了历史舞台。在图书馆,用户行为智能预测、移动数据分析、知识搜索引擎等将是大数据波及的第一战场。
3大数据对我国复合图书馆带来的核心挑战
复合图书馆是传统图书馆与数字图书馆有机结合的一种独立的图书馆形态,兼具二者优势,是传统图书馆的延伸。然而,我国复合图书馆的发展并不成熟,还存在技术障碍、人才瓶颈、设施落后、经费紧张等一系列问题。面对量大、样多、结构复杂的大数据,复合图书馆常常显得力不从心,尤其是在信息数据的存储、组织、分析等方面有不小的压力。那么,大数据对我国复合图书馆带来的核心挑战有哪些?
(1)图书馆的功能将重新定位。复合图书馆一般只有数据查询、统计及较低层次的分析、获取功能。随着大数据时代来临,信息社会将逐渐转变为知识社会,图书馆的形态将从物理图书馆逐渐转变为虚拟、泛在图书馆,其功能也将重新定位,即由"文化传承中心"转向"学习交流中心"和"知识加工中心".因此,时代驱动下图书馆职能的演进进程为:藏书楼-读书馆-知识加工厂+创新触媒-智慧图书馆。
(2)数字资源需再发现。复合图书馆的资源目前主要通过各自的服务系统提供服务。虽然图书馆通过努力整合了数字资源,一定程度提高了查找率,但用户依然觉得没形成一个完整的资源体系和服务体系。如,"期刊导航"、"数据库导航"只能揭示到数据库名称或期刊刊名层面,不能对具体论文进行深度揭示和整合;而联邦检索系统因其自身技术的局限性,用户使用效果并不好。为让用户能快速、准确地从分布存储的海量资源库中找到所需资源,图书馆迫切需要向用户提供"资源发现系统"(resource discovery system),以提供准确、自动、智能的发现服务。当然,资源发现系统的建立离不开先进技术支撑,基础设施作保障。经费和人才对我国图书馆仍然是不小的挑战。
(3)馆员的专业资质需提升与多元化。专业资质需提升与多元化。所谓专业资质指从业者关于信息的获取渠道、技术、管理等方面的知识及利用这些知识提供最佳信息服务的能力。专业资质包含了专业知识和能力两个层面,而馆员的知识和能力不是一下就能获得或提高的。因此,大数据人才的挖掘与培养是目前亟需关注的领域。在美国,做馆员须持有图书馆专业硕士学位。过教授类馆员,还要求有第二硕士学位,即专业学位。
(4)服务期待创新。大数据时代是知识经济的时代,人们对信息的需求呈现精、细、准。为了最大限度满足用户个性化的需求,图书馆的服务期待更多创新。从某种意义上说,传统的流通服务将退居二线,图书馆的空间与服务将走向融合,泛在的、个性化的深度知识服务成为未来图书馆发展的趋势。
(5)管理模式有待变革。当"云计算恰逢大数据",复合图书馆的管理模式有待变革以实现知识管理。传统的采访、编目、流通管理将黯然失色,大力加强数字化资源建设管理;传统的职业倦怠将不复存在,强调引入大数据的竞争意识;财政管理上,需重视"关键的少数"和"琐碎的多数",即用少量的投资取得较多的收益;加大动态物理环境与复合数字环境的有机融合,特别是云架构战略在复合图书馆的发展成熟将打破传统的区域合作模式,开创新型的复合图书馆的云联合模式,也称数字图书馆联盟。
4国内外图书馆推进大数据的实践举措
虽然大数据对图书馆的影响总体上还不明显,但条件较好的图书馆,尤其是一些国外图书馆已积极行动起来,在大数据的研究与应用上做出了尝试,为业界树立了榜样。限于篇幅,兹暂引几例以作参考。
(1)采用"水木搜索"为用户提供检索
海量的元数据汇集到一起,蕴藏了大量的知识,对基于数据的知识服务带来重要影响。清华大学图书馆尝试推出"清华大学学术信息发现平台",又名"水木搜索",英文名"Discover More",别名"发现猫".该系统将书、刊、文章等元数据汇聚在一起用于检索,用户可通过开放链接技术定位及获取资源;维基百科的词条、清华教工简介、豆瓣书评等在展示层与检索结果关联,用户可在一个检索结果页面获得不同层次、不同角度的信息内容。目的在于为读者提供快速、准确、便捷的资源发现及获取服务。该平台的主要特色:
海量数据:汇集5亿余条文献信息,包括纸本书刊、电子书刊、期刊与会议录、学位论文、专利等,基本覆盖清华馆的纸本资源和电子资源。
快速检索:通过建立海量学术资源的元数据仓储和预索引,提供快速检索;基于AJAX等技术提供相近检索词提示、检索历史、标签检索等助力检索的新功能。
结果聚合:检索结果通过多种途径的分面和排序方式进行过滤、聚合与导引,方便读者快速定位所需信息。
便捷获取:通过开放链接技术,提供一站式获取。电子资源通过"在线查看"和SFX链接,可以快捷恰当地获取全文。
(2)构建支持分布式、异构性信息共享系统
大数据结构复杂,异构数据的集成与信息共享问题给图书馆带来了严峻挑战。
1994年,由加利福尼亚大学图书馆和其他大学、学院图书馆共同建立的INFOMINE网络学术资源虚拟图书馆就是一支持分布式、异构性信息共享的系统。
INFOMINE采用分类法和主题法组织资源,为用户提供基本检索、高级检索和浏览检索3种方式。检索界面简单易用,结果以动态网页显示,包括资源名称、URL地址、相关链接、收费情况等,并为用户提供了对资源发表评论的平台,已成为Internet上深受用户喜爱的高质量学术资源站点。其成功得益于ivia开放资源虚拟图书馆系统软件,该软件是一个强大、灵活、可定制的系统,能满足多样化的定制。目前,该系统拥有电子期刊、电子图书及其他信息资源11万多项。其中,2.6万多项是馆员选择建立的,另8.5万多项由机器人、爬行器自动创建。总之,该系统是图书馆组织网络信息开发网上虚拟图书馆的成功范例。
(3)设立"信息专员",提供协同嵌入服务
大数据量大、样多且变化快,给图书馆服务提出了挑战。如何快速、及时地获得用户所需信息,在数据庞大、信息泛滥的时代实属不易。"信息专员"的设立是一不错选择。
约翰霍普金斯大学(JHU)图书馆认为图书馆作为科研基础,应该向用户呈现新的维度,将馆员作为信息资源融入到临床、科研、教学中,能提供深度信息服务,并能独到地将他们的专长用到具体领域中解决实际问题。当然,馆员要想成为信息专员,必须经过一定的教育以弥补他们的学科背景。
经培训,Welch医学图书馆(JHU的学科分馆)已有10名临床与公共健康馆员由院系联络员(Liaison)转变为院系嵌入式信息专员(Embedded-Informationist)。提供的个性化信息服务有:在用户所在的科研、教学和临床医疗地点服务;随时随地与用户合作,嵌入用户工作流程等。其主要职责有:现场咨询与检索、为用户创建数字门户、为用户所在院系网站建设Web2.0论坛、协同参与用户的项目过程等。为促进与用户的关系,信息专员还可请求参加用户大型圆桌会议和专题研讨,以适时在会上展示图书馆服务。彼此了解后,信息专员与用户一起评价信息需求,诸如在用户特定场所设定"办公时间"、加入用户期刊俱乐部等。