0引言
随着网络信息技术的不断发展, 互联网信息数量及种类激增,面对规模大、形式多样的数据,如何收集并分析出有价值的信息成为各行业研究的重点,大数据概念也因此而产生并进入人们的视野,可以说大数据的运用使人类的工作、生活和思维发生了极大的变化,开启了一次重大的时代转型,我们称之为大数据时代。 图书馆作为提供公共文化信息的重要门户机构,单纯的文献采购、图书借阅、文献传递工作已经无法满足用户的需求,图书馆工作应顺应时代发展潮流,克服大数据技术发展中存在的一系列问题,将大数据技术与图书馆员的专业特长、馆藏资源优势充分结合,为图书馆的发展开辟新的方向。
1大数据的概念及特点
1.1 大数据概念。
对大量的人机数据进行捕捉、存储和分析,并根据这些数据作出预测的能力就是我们所说的大数据[1]. 研究机构 Gartner 给出的定义是:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 大数据的核心就是挖掘出庞大的数据库独有的价值,把一些看似没有因果关系的事物经过量化得出有价值的信息。简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术[2]. “大数据之所以成为一个时代,是因为它的研究者、参与者不仅仅是极少数的学者专家,而是它已经渗透到我们这个时代的各行各业。
1.2 大数据特点
大数据的特征,业界常用四个 V 开头的关键词来描述。
1.2.1 Volume(容量)
”人类的 存储信息量的增长速度比世界经济的增长速度快 4 倍,而计算机数据处理能力的增长速度则比世界经济的增长速度快 9倍[4]. “数据量从 TB 级别跃升到 PB 级别,几年后也许 EB 数量级的数据才能够称得上是大数据。据保守预计,接下来几年中,大数据将始终保持每年 50%的增长速度。 根据 IDC 的”数字宇宙“的报告,预计到2020 年,全球数据使用量将达到 35.2ZB.
1.2.2 Variety(多样性)
数据形式多样,不再局限于传统的结构化数据,图片、视频等半结构化或者非结构化数据也囊括入内。
1.2.3 Velocity(速度)
数据的产生、更新、处理速度是衡量大数据的一个重要特征,也是大数据区分于传统数据挖掘的最显著特征。
1.2.4 Value(价值)
数据价值密度低,不会因为样本数据的收集的不及时、不全面、不完整或者微小的失误而影响数据价值,只要合理利用数据并对其进行准确的分析就会带来一定的价值回报。
2图书馆应用大数据策略研究
任何一个图书馆,”为读者服务“ 是其工作的出发点和最终目标,服务的不断创新是图书馆持续发展的必然要求,充分利用高效便捷的信息技术,实现众多用户以一种便捷的方式体验大数据环境下图书馆服务的多样化、人性化,这是图书馆工作发展的一个方向。作为一项新的技术,大数据技术在图书馆界的使用并不成熟,因此,图书馆要引进大数据技术不能盲目跟风,首先应考虑人员组成、大数据工作流程、数据备份工作、设备要求、读者隐私等保护等问题的具体实施策略。
2.1 提高工作人员的综合素质及图书馆信息服务水平
美国研究图书协会提出,数据研究和管理将成为下一代图书馆员的最重要的能力之一。 随着现代化技术的发展及广泛应用,图书馆的大多数工作已经可以被自动化设备、机器所代替,图书馆员的工作内容趋向于对读者的教育职能, 指导读者查找和使用学术文献资源,协助读者进行科研工作,为读者提供个性化服务,要使这些工作能顺利开展并被读者接受、充分调动读者的积极性,就要求图书馆员能及时准确的了解到读者内心的需求并适时的提供读者所需的服务,要达到这样的能力,就要求每个馆员都有大数据意识,懂得大数据并能正确运用大数据技术, 根据大数据显示的结果分析出读者的行为习惯,预测出读者可能需要的服务,这样就可以做出合理的管理决策,如根据读者行为习惯调整馆藏布局、图书排架规则,根据读者的实际需求采购馆藏资源、提供更贴心更个性化的服务。所以说,大数据技术的运用对图书馆工作人员的综合能力有了较高的要求,它要求工作人员不但要懂图书馆专业技术、熟悉图书馆各岗位工作情况,又要懂得计算机技术、通讯技术、网络技术,除此之外还要有深厚的数学功底。因此,提高图书馆管理人员的综合能力是大数据技术运用的先决条件。
2.2 大数据技术工作流程
大数据处理方法有很多,但是它有一个普遍适用的大数据处理流程,分别是采集、导入和预处理、统计和分析,最后是数据挖掘。 如图 1所示:
(1)数据采集。 大数据的采集是指利用多个数据库来接收发自客户端(Web、App 或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。 图书馆的图书借阅管理系统、电子阅览室管理系统、门禁系统、文献传递系统等,这些系统后台都有强大的数据库支撑,图书馆应尽可能收集这些记录读者行为的信息来完成数据采集工作。 在数据收集过程中还应该注意:①读者样本的选取应该是全体数据而不是随机样本,这样不但能保证大数据分析结果的准确性,还能通过少数的异常数据发现更有价值的信息。 ②允许不精确数值的出现,这也是从”小数据“到”大数据“的重要转变之一,因为在实际收集数据的过程中,要避免错误数据的出现,不仅仅耗费大量人力物力,可能也限制了分析结果的全面性。
(2)导入和预处理。 读者数据的采集本身就是由数据库来完成,但是如果要对这些海量数据进行有效的分析,那就需要将应用系统收集的读者信息统一导入到一个统一的大型分布式数据库或分布式存储集群,再导入前需要对采集到的读者数据做简单的清洗和预处理工作作。 也可以在导入时使用来自 Twitter 的 Storm 来对数据进行流式计算,来满足部分业务的实时计算需求。
(3)统计和分析。 统计与分析数据主要是利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,一些实时性需求会用到 EMC的 GreenPlum、Oracle 的 Exadata, 以及基于 MySQL 的列式存储Infobright 等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop[13].
(4)数据挖掘。 与前面统计和分析过程不同的是,数据挖掘一般没有预先设定好的主题,主要是收集到的读者信息数据上进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。 比较典型算法有用于聚类的 Kmeans、用于统计学习的SVM 和用于分类的 NaiveBayes,主要使用的工具有 Hadoop 的 Mahout等。
2.3 数据备份工作不应忽视
对采集到的读者数据需要长期保存,少量的数据丢失也可能影响大数据分析结果,但数据量大,增长速度快,因此制定一个合理的备份方案是工作人员必须考虑的问题,是一项不容忽视的工作。
2.4 设备要求高
大量数据的不断产生,要对其进行备份、分析处理,根据处理结果做出不同的动作,在如此高负荷的工作压力下,拥有足够的存贮空间、扩展性好、质量可靠、性能稳定、成本低的存储设备自然而然成为保障这一切的基础。目前,较为成熟可靠的存储架构主要有 3 种,第一种是DAS,即”直接连接存储“,是指将外置存储设备直接连接到计算机上。
第二种是 NAS,通过网络方式连接存储设备。 第三种是 SAN 技术,它是通过将存储设备(诸如磁盘阵列、磁带库等)与服务器连接起来并采用光纤接口的专用存储网络。 除此之外,还有近两年新发展起来的云存储,采用哪种存储方式能满足我们上述的要求,值得我们深思。
2.5 数据安全性
用户隐私问题一直是大数据应用难以绕开的一个问题, 目前,中国并没有专门的法律法规来界定用户隐私,处理相关问题时多采用其他相关法规条例来解释。 但随着民众隐私意识的日益增强,合法合规地获取数据、分析数据和应用数据,是进行大数据分析时必须遵循的原则,保护读者的隐私信息是数据搜集者和分析者应当具备的基本道德和责任。作为图书馆工作人员在读者数据的收集使用过程中应加强风险防范意识,对收集到的读者信息制定一个严格的管理措施,避免信息泄露给读者带来的不良后果。
3结语
大数据时代,图书馆服务能力的强弱不再局限于拥有文献信息的数量,对信息的获取、融合、挖掘以及对馆藏资源的利用水平才是衡量一个图书馆服务能力和竞争力的关键因素。个性化服务、人性化政策、馆藏结构调整、 各类资源的整合等都将依赖于大数据的分析和预测。
除此之外,图书馆可以考虑为企业、为读者提供数据挖掘服务,将图书馆业务扩大至社会各个阶层, 使更多人能感受到大数据带来的好处。利用好大数据,为读者提供更高水平、更人性化的服务,提高图书馆人的”成就感、存在感“.作为一项新兴的技术, 大数据必将给图书馆的发展带来新的挑战,图书馆工作人员应加强学习,端正心态,提高自身的素养,以积极的态度迎接大数据的挑战,为大数据工作的顺利开展做出贡献。
参考文献:
[1]大卫·芬雷布.大数据云图:如何在大数据时代寻求下一个大机遇[M].浙江人民出版社,2014,1.
[2]大数据[J].天津经济,2013(8):18-19.
[3]李鹏云.大数据与图书馆服务 [J].农 业图 书情报学刊 : 管 理服 务 ,2013;25(9):178-181.
[4]维克托·迈尔-舍恩伯格,等。大数据时代:生活、工作与思维的大变革[M].杭州:浙江人民出版社,2013,1.
[5]陈刚,李丛杉。关键时刻战略:激活大数据营销[M].北京:中信出版社,2014,1.
[6]姚毅.掘金大数据:图书馆面临的几个问题探讨[J].新世纪图书馆,2014(6):32-35.
[7]涂子沛.大数据:正在到来的数据革命[M].桂林:广西师范大学出版社,2012.
[8]李蓓蕾,王 映花,刘 海。浅析大数据时代高校图书馆的信息服务 [M].科 技风 ,2014(12):23-25.
[9]Butler, Brandon. Talk about big data: How the Library of Congress can indexall 170 billion tweets ever posted[M].Network World (Online), 2013:12(3)。
[10]许玲.大数据时代图书馆面临的挑战与对策思考[J].中共福建省委党校学报,2014(5):117-120.
[11]张云.大数据背景下的图书馆发展问题与策略[J].信息技术与信息化,2014(5):42-43.
[12]刘乐乐.浅析大数据带给图书馆的影响与挑战[J].农业图书情报学刊,2014(11):83-86.
[13]安宗玉.浅析大数据对图书馆的影响及对策[J].河南图书馆学刊,2014(1):45-48.