第一章 技术背景:大数据时代的信息社会
互联网科技的发展在最近几十年内不断更新迭代,新的技术突破改变着二进制世界的规则与联系,同时也将这种变化投影到现实生活中来。数据作为计算机系统运行和网络联接的基本载体,也在范围和性质上发生着根本性的变革。从范围上来说,数据的外延从核心数据开始扩展到无所不包的广泛数据;从性质上来说,数据从抽象的电磁记录开始深化到与个人、企业和社会紧密联系的信息资源;从分析过程上来说,从单机自动处理数据到静态数据库和信息系统分析,现在已经发展为依托互联网的平台式分析。而大数据时代的到来,就是信息社会的最终实现,这种全方位的转变带来了全方位的社会变革,以商业模式的不断翻新为最典型的例子,大数据已经从医疗、政府、能源、健康、精准农业、金融、数据新闻等方方面面撼动了世界。一如《大数据时代》中所言:“大数据标志着人类在寻求量化和认识世界的道路上前进了一大步”(23),“大数据在实用层面的影响很广泛……大数据是利害攸关的,它将重塑我们的生活、工作和思维方式……我们脚下的地面正在移动”(239),“当世界开始迈向大数据时代时,社会也将经历类似的地壳运动”(219)。这种广泛性、根本性的变革必然将引起人类生产、交往方式的变革,社会管理方式、结构的变革,也必将呼吁与之相应的法律制度的变革。
一、相关的概念界定
英国教授维克托 迈尔的《大数据时代》一书深入浅出的讲解,则使得大数据这一概念广泛被人们所认知,并引发人们对这一信息时代变革性现象的关注。现在,大数据已经作为最炽手可热的概念之一,成为大众所津津乐道的一种信息获取与表达的方式,人们几乎可以将生活中的各种事情都与这样的大范围数据加工、提炼,最终形成有用信息的过程结合起来。但大数据毕竟是一个技术性概念,现实中的一些提法如局域网联通,其实严格上并不属于大数据的范畴。因此对于被过于泛化的大数据概念,有必要作出梳理。
“大数据”这个概念早在上个世纪的1980年,着名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中,就将“大数据”热情地赞颂为“第三次浪潮的华彩乐章”。
2001年,高德纳(Gartner)公司在一份研究报告首次使用了“大数据(BigData)”这一概念。大数据(big data)是指那些大小已经超出了传统意义上的尺度,一般的软件工具难以捕捉、存储、管理和分析的数据。但是具体多大的数据才能称之为大,并没有普遍适用的定义。一般认为,大数据的数量级应该是“太字节”(2*40)的。
由此可见,大数据是强调数据容量的急剧增长,达到了一个与传统数据本质性不同的级别,这是大数据同传统意义的数据在概念上最大的不同。“据统计,全球数据量出现爆炸式增长。即使在遭遇金融危机的2009年,全球信息量也比2008年增长62%,达到80万PB(1015字节),2010年增至120万PB。据IDC预测,至2020年全球以电子式形存储的数据量将达32ZB(1021字节)。以120万PB数据为例,如果将其刻录在DVD上,再将这些盘片堆叠起来,可从地球到月球垒一个来回!”
这一级别的数据量将是传统数据从统计量上来看根本无法企及的,这从根本上揭示了大数据同传统数据相比,已经有了完全不同的性质。从数据到大数据,是巨大的变革。
大数据的来源及其宽泛,这也是为什么可以不再界定大数据的外延——因为大数据是无所不包的。全球数据量出现爆炸式增长,数据成了当今社会增长最快的资源之一,几乎人们生活的一切都可以用数据来予以描述,无论是在现实社会里的地理位置数据,还是网络空间中的浏览痕迹,都可以被量化、被记录、被数据化。大数据主要来自互联网世界与物理世界,互联网的大数据主要是基于Web 2.0网站建立的社交网络服务(SNS,Social Network Service),个人在自媒体时代从信息的受众转向了信息的发布者,这些网络空间中的言论、评论、朋友关系、页面访问等数据都成为大数据的组成部分;而物理世界的大数据同智慧城市、物联网、移动互联网等终端的不断延伸同步发展,使得越来越多的数据被汇集起来。
一方面是网络世界的现实化,另一方面又伴随着现实世界的数字化,通过“量化”这一核心步骤的整合,人们的虚拟世界和现实世界生活不断交织,也不断催生着数据量的膨胀。
大数据这样庞大的数据量赋予其与传统的数据根本性的不同的特征。从特征上来看,较为统一的认识是大数据有四个基本特征::数据规模大( Volume) ,数据种类多( Variety) ,数据要求处理速度快( Velocity) ,数据价值密度低( Value) ,即所谓的四V特性。也有的用“4V+C”来概括大数据的特征,C即复杂性(complicated)。这些特性都使得大数据区别于传统的数据概念。
此外,大数据的概念也与“海量数据”不同,相比于后者只强调数据量上的庞大的概念表述方式,大数据不仅描述量上的特征,还更进一步包括数据的其他特征如数据形式的复杂性、数据时间上的迅速和及时性等。大数据的概念包容性更强,涵盖更为复杂的数据特征。
有文章认为,大数据可以被定义为:“以新数据处理技术为手段,在海量、结构复杂、内容多样的数据集中,以较快速度解析出规律性或根本性的判断、趋势或预见。”
这就揭示了大数据的动态处理过程,这种过程是一个信息价值的生产和集成过程。大数据的一个必不可少的步骤就在于对数据的分析、处理等专业化处理过程,而最终实现数据到信息的价值转变。“信息生态系统”这一概念已经开始用来描述大数据时代信息生成的整个流程。
因此,大数据是特殊的对象,它绝不等同于传统的数据概念,也不是可以简单的作为客观对象看待的物。简而言之,大数据本质上是数据的聚合,是来源极广、容错性超高、非结构性突出、潜在价值巨大的海量数据。对大数据的分析、运算而使之进一步信息化是大数据必不可少的配套技术和步骤。有学者认为,“大数据是一种方法研究,数据本身不作为研究目标,而是作为方法研究和发现新知识的工具。大数据研究是一种交叉学科研究,它与数据挖掘、统计分析、搜索等人工智能方法密切相关。”
这种观点很好地揭示了大数据的动态研究体系。大数据绝不止步于数据本身,而更多地在于分析后的信息价值和应用中的使用方式,在于海量数据的交换、整合与分析,在于通过数据挖掘发现数据背后的意义。也即,大数据的意义最终将落脚于其所承载的信息,这些信息是通过对原始的庞大数据进行运算处理而得出的结果。
二、主要的技术变革
大数据的运算处理是随着互联网的发展和云计算技术的进步而逐步被提上日程的,技术的进步实际上是为数据和信息的流动提供了更为先进与便捷的框架,而在数据自动化处理过程中,无论是第一代的大型主机还是现在最先进的分布式主机结构,最重要的始终都是数据和信息的价值,所围绕的整个处理过程也是以数据和信息为中心——数据的产生、处理和信息输出的过程,只不过有一系列的范式变革。
从某种意义上来说,离开了运算处理能力来谈大数据是没有任何意义的,就如同计算机终端机离开了CPU的运算功能,其先进与便利就无从谈起。“当前大数据分析技术面临的挑战,一方面是要对结构化和半结构化数据开展深度分析,另一方面是要开发非结构化数据的宝藏,从而将海量复杂多源的数据转化为有用的知识。”
这表明,大数据的核心就是数据的分析。
“大数据是指无法在可容忍的时间内用传统IT技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合。”大数据的另一特点在于数据的非结构化,这样广泛的数据是无规则的、混沌的、杂乱无章的,在存储之前需要一个清洗和降噪的过程。所以数据分析的起点就是数据的抽取和存储问题。进而通过分布式计算实现非结构化数据的运算分解与整合。最后,大数据的最重要的应用途径之一是可视化,通过清晰的图标分析展示大数据分析生成的信息结果。
三、现实的应用领域
大数据改变着人与人之间的社会关系,通过广泛的应用从方方面面带来了各个领域的变革。它让决策和商务都更加智慧、更加高效、更加精确,大数据的应用带来的是模式上的改变与革新。
大数据推动着政府社会管理方式的创新。“数据驱动的社会管理”就是在社会管理中实施的一种新型管理模式,“无论是政府还是组织机构,数据收集和分析已经成为基层管理部门的基本要求,根据数据分析结果制定政策和法规,将社会管理从事后处罚转向事前防备,在医疗健康、国土安全、智慧城市建设、防范和打击恐怖活动、社会治安、治理社会腐败等方面发挥着重要作用。”
同时,大数据在选举民意调查、社会福利、社会治安与犯罪预防、自然灾害防治、民主制度建设等诸多方面都展现了数据创新的非凡成就。我国 2014 年首次将大数据写入政府工作报告,体现了我国从顶层设计上对大数据问题的关注。报告指出,设立新兴产业创业创新平台,在新一代移动通信、集成电路、大数据、先进制造、新能源、新材料等方面赶超先进,引领未来产业发展。并总结了大数据的四个关键特征,分别是:海量化、多样化、快速化和价值化。也由此将大数据提升到了国家战略的高度。
“数据驱动的社会管理”就是在社会管理中实施的一种新型管理模式,无论是政府还是组织机构,数据收集和分析已经成为基层管理部门的基本要求,根据数据分析结果制定政策和法规,将社会管理从事后处罚转向事前防备,在医疗健康、国土安全、智慧城市建设、防范和打击恐怖活动、社会治安、治理社会腐败等方面发挥着重要作用。
大数据的最典型的变革体现在商业领域。大数据商业实践可以划分为两类:
一类是大数据行业,以 IBM、微软、惠普、Oracle、EMC、SAP 等公司提供“硬件+软件+ 数据”的整体解决方案,它们以平台性为特征,提供基础性服务; 另一类是大数据应用,以脸谱、亚马逊、谷歌、淘宝、百度等公司为代表,基于自身拥有的海量用户信息,提供精准化营销和个性化广告推介等。
大数据对企业竞争力的影响主要表现在客户洞察、营销规划、产品创新、物流管理、流程优化、人力资源管理、风险控制等七个方面。国内阿里淘宝页面的广告推送,Google 的在线文档软件,都是大数据的在商业上的应用创新。
从大数据的应用上可以看出,首先大数据的应用领域及其广泛。其次大数据的社会管理价值和经济价值极度凸显,对政府和企业来说,大数据已经成为决策、管理、运营、竞争的核心要素,是必不可少的重要环节。而对个人来说,因为大数据本身就由大量的个人生活活动数字化而成,自然也与个人隐私密切相连,这在大数据的整个应用环节都是至关重要的。