据预计,2020 年全球以电子形式存储的数据量将达35ZB,是 2009 年全球存储量的 40 倍. 而在 2010 年年底,根据 IDC 的统计,全球数据量已经达到了 120 万 PB……数据的爆炸式增长大大超乎了人们的想象, 我们无疑迎来了大数据时代. 而此时,各行各业都面临着对庞大而复杂的数据进行有效管理的巨大挑战, 人们越来越认识到对自身产生和拥有的大数据进行有效管理的重要性和迫切性, 档案行业也不例外.
档案行业以保存社会档案并提供档案为社会利用为己任,承担着对社会原始记录的收集、整理、鉴定、保管、检索、利用等任务,在大数据时代,社会每天产生的原始记录的量和种类与过去不可同日而语,加上各类型的档案馆(室)现有的档案数据,档案工作者已经明显感觉到任务的艰巨,而且很多时候面对汹涌而来的大数据, 档案工作者已经不知道如何应对,因此,档案界很有必要探讨一下大数据时代背景下的档案管理问题.
至于"大数据时代"的提出,则要追溯到 2012 年 3 月29 日 ,奥巴马政府在白宫网 站发布了 《大数据研究和发展倡议》,宣布投资 2 亿美元启动"大数据研究和发展计划",并且定义为"未来的新石油",希望增强政府收集、分析和萃取海量数据的能力, 旨在提升利用大量复杂数据集合获取知识和洞见的能力. 这个由世界最强国家政府推动的项目,标志着"大数据"时代的到来. 2012 年 11 月,广东省制订了《广东省实施大数据战略工作方案》, 成为率先在全国推行大数据战略的省份.
而关于"大数据"的本质,早在互联网出现之初,我们就知道网络无秘密,在网页上敲击的每一个数据,都将被自动记录. 现在,当数据的积累量足够大,量变引起了质变. "大数据" 通过对海量数据有针对性的分析, 赋予了互联网智商,这使得互联网的作用,从简单的数据交流和信息传递,上升到基于海量数据的分析,一句话,"他开始思考了". 这是继云计算、 物联网之后 IT 产业又一次颠覆性的技术变革,对国家治理模式,对企业的决策、组织和业务流程,对个人生活方式都将产生巨大的影响.那么究竟什么是"大数据"?
数据信息的新时代,科学家们称之为"大数据时代". 所谓大数据,简而言之就是巨量资料、海量资料,甚至于所涉及的资料量规模巨大到无法通过目前主流软件工具, 在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯. 大数据描述的是随着数据量和数据类型激增而逐渐衍生出来的一种现象, 不仅包括大规模的体谅、多样化种类的数据集,还包括对这种数据集进行高速采集、处理与分析以提取价值的技术架构与技术过程. 具有以下三大主要特征(3V):数据量大(Volume),PB 级甚至ZB 级 ;数 据类型多 (Variety),网络日志 、音频 、视频 、图片 、地理位置等结构化和非结构化数据并存, 数据类型层出不穷;时效速度快(Velocity),采集、处理数据的效率高. 后来一些学者又概括添加了价值稀疏性 (Value) 和复杂性(Complexity).处在大数据时代的档案事业如何发展, 采取什么样的措施才能帮助人们洞察大数据带来的大价值? 这是我们档案工作者必须面对和思考的问题, 云计算让我们处理海量的结构化和非结构化的数据成为可能. 档案人应该跳出档案做档案,摆脱传统思维的制约,充分利用全社会的资源和力量,建设大档案,实现大服务. 大数据时代的档案将向社会化、多元化、开放性和先进性发展,档案馆成为集文化、教育、信息、休闲于一体的文化信息中心.
我国的档案信息化建设已经持续进行了 20 年,无论是传统载体的档案数字化,还是电子政务系统的建设,都产生了大量的数字信息,即使是通过对云计算、云存储、移动互联网、物联网等新型 IT 服务模式在档案管理工作中的大范围运用,也依然无法满足我们日常的需要. 面对这些现实情况,对于档案管理工作进行一场技术革新也是在所难免的.
而大数据时代的来临相比其他信息技术则更加契合档案管理工作的需要. 尤其是在知识经济时代,将档案资源转化为知识资源,将成为今后档案管理工作一个必然的发展方向,大数据将起到举足轻重的作用.
2013 年 1 月 29 日, 住房和城乡建设部公布了首批 90个智慧城市试点, 由国家统一规划和施行的智慧城市建设正式起步. 建设智慧城市要遵循"多用信息少用能源"、"多用信息少受灾害"以及"多用信息多利民众"几项原则. 档案馆作为永久保存档案, 并提供档案为社会服务的科学文化事业机构,储存有海量的信息资源,是信息资源的聚焦体.
伴随大数据时代的悄然来临, 国际国内的众多企业纷纷从中获利, 这一切则基于大数据通过自身的技术优势让企业走出了传统的决策模式,进一步掌握了"数据驱动的决策方法",从而使得企业的决策更加趋向于"科学化、合理化". 随着大数据的"商务智能"技术在企业中的广泛应用,实现了企业内部财务系统、人力资源系统以及 CRM 系统的有效衔接,不仅提高了企业运营的效率,有效的帮助企业总结发展过程中的模式,同时还改善了企业预测未来的能力.
档案管理也从简单的数据收集、 数据存储管理转变为信息资源的有机整合加工,使数据成为与人、财、物比肩的资源.
档案馆是国家、地区集中管理档案的文化事业机构,是提供利用档案资料,为社会各方面服务的中心. 随着我国改革开放总方针的实施与社会主义现代化建设的蓬勃发展,社会各方面对档案资源的需求日益增长, 传统档案的管理方式, 已不能完全满足国家对各类档案的安全保管以及开发利用的需要.
我们档案馆里藏有大量珍贵的文献资料, 是一代代档案人披肝沥血、含辛茹苦收集而来的,有的甚至付出了血的代价. 随着人类社会向信息、 知识经济广泛深入的发展,信息技术给我们的工作和生活带来了日新月异的变化. 简单而言,档案是人类活动的真实记录,人类社会在漫长的发展过程中,关于组织、个人的记录数据浩如烟海,我们在档案馆所能见到的只是漂浮于大海上的冰山一角. 在如今的移动互联网时代,我们的行为、位置,甚至身体生理数据的每一点变化都成为了可被记录和分析的数据.
同时,相比依赖小数据和精确性的时代,大数据因为更强调数据的完整性和混杂性, 帮助我们进一步接近事实的真相. 随着大数据时代的到来,档案人对档案工作的认识已经不能停留在过去传统的认识上了, 在思维上必须有一个大突破. 档案是人类活动的真实记录,具有原始、真实的特性. 大数据强调的是数据的完整性和混杂性,注重原始数据的获取. 数据价值的关键是它的潜在价值,收集信息固然至关重要,但还远远不够,因为大部分的数据价值在于它的使用,而不是数据本身. "大数据的核心就是挖掘出庞大的数据库独有的价值". 我们档案也提出了以"藏"为主向以"用"为主转变,从"被动服务"向"主动服务"转变. 我们就要在大数据的背景下发散性的思考我们的工作, 有一个模型就是"数据-信息-知识 -智慧 ", " 大数据的核心就是预测 ","大数据就是要赋予我们智慧和洞见". 这段话就概括出档案的三大功能:了解过去、把握现在、预见未来. 有些档案部门提出"智慧档案"的理念,我想不是夸大其词,是有道理的. 档案向知识管理转型,就是要运用相关的思维方法,找出数据之间的相关性,挖掘大数据的潜在价值,发现知识,为企业提供知识服务,提高企业的组织智商,让企业能够智慧的生存,切实增强企业的市场竞争力. 规模仍然很重要,但是更重要的是数据的规模,也就是说要掌握大量的数据,而且要有能力轻松地获得更多的数据,所以,随着拥有的数据越来越多,大数据拥有者将大放异彩,因为他们可以将这些数据转化为价值.
大数据时代将催生数据科学家. 数据科学家本质上更像是统计学家, 他们有能力设计和利用 MapReduce 框架.
Google 的 Hal Varian 表 示未来 10 年数据科学家将 变成性感的工作,许多人认为我是在开玩笑,回过头来看,在 20 世纪 90 年代谁会猜到计算机工程师会成为性感的工作. 前LinkedIn 数据科学家 DJ Patil 表示,数据科学家是具备独特技能的. Bitly 首席科学家 Hilary Mason 表达同样的观点,他认为数据科学家是融合数学、算法,并可从大数据中寻求问题答 案的人 . 而 现 任 LinkedIn 首 席 数 据 科 学 家 MonicaRogati 认为数据科学家是黑客和分析师的混合体 , 他们通过数据发现本质. 纽约时报研发实验室的成员 Jake Porway表示数据科学家绝对是罕见的全才. 数据科学家除了具备编程的能力外还需将各种来源的数据管理并利用统计学挖掘出蕴藏在内部的信息. Kaggle 总裁兼首席科学家 JeremyHoward 认为一个伟大的数据科学家应具备创新 、 坚韧、好奇、深厚技术这四项素质. 具备数据收集、数据改写、可视化、机器学习、计算机编程等技术的数据科学家使数据驱动决策并主导产品,他们更喜欢用数据说话.
档案管理用数据说话, 大数据的概念听起来虽然很美好,似乎利用大数据的大门在不久的将来就会打开,但一切并没有那么简单. 档案管理人员将如专家一样来解决海量数据. 在大数据时代下,档案工作人员成为数据科学家将是一种可能. 面对大数据的浪潮,档案管理人员不要做旁观的"路人",要敞开胸怀 ,积极地拥抱和融合 ,借着大数据的力量和高度进行内视和审度,再回首,相信会豁然开朗,柳暗花明.