4、大数据与科学范式的转变
在前两章里,数据含义的范畴主要集中在计算机中的数据以及测量数据这两方面。但实际上,数据的外延要广得多,不仅包含更大范围的非结构化数据,还可以通过元数据、二元数据等形式归纳或推演出独具价值的衍生数据。所以,从数据到大数据的过程,是将数据的概念宽泛化,同时予以数据以扩展性和延伸性。
在此基础上,诞生了大数据科学,也称数据科学的新学科。大数据概念诞生于硬件技术的快速革新以及以云计算和物联网为核心的网络技术的普及。很让人惊讶的是,早在 1988 年 BW 就在文中表现出与大数据时代高度吻合的思想,即基于数据驱动的科学知识的自动发现。在被誉为第四范式的数据科学来势凶猛,让人措手不及之时,它已经融入大部分基础、实验与应用型科学当中,如生物化学、天文学和实验物理学等。这一章主要探讨关于数据密集型科学的哲学问题,以及大数据方法论背景下数据经验主义与基础主义进路的整合。
4.1 大数据的技术变革。
大数据概念是信息化过程中极具突破性的阶段。我们知道,信息化的本质是将现实世界的事物转化成计算机可以表示的数据,即信息化是一个生产数据的过程,数据被大量生产而在网络空间中形成了数据资源。当前大数据的应用就是对网络空间中数据资源开发利用的一种表现。"人们认识到数据是一种重要的资源,价值巨大,但在开发利用数据资源的过程中遇到了技术问题,就需要新技术和新方法来解决。"从技术上来讲,大数据就是指所涉及的数据量规模巨大到无法通过传统人工手段,在合理时间内达到截取、管理、处理并整理成为人类所能解读的形式的信息。也就是,以现有的一般技术难以管理的大量数据的集合。如此定义就将大数据的概念限定在"大"的含义上。其实,所谓大数据,并不是一定要超过特定TB值的数据量才算大数据,而是一个综合性概念,最初它包括具备 3V:数据规模大(Volume)、数据类型多样化(Variety)、数据流动更新快(Velocity),后来增加了价值(Value)这一项,形成 4V 的主要特征.
第一点,不用说是容量大,数据规模的爆发式增长,是继云计算、物联网等一大批数据技术成熟之后,使得大数据技术的突现与风靡成为必然的趋势。我们知道大数据本身,既不是科学也不是技术,而是一种客观存在,不管是物理意义上的,还是虚拟网络上的。尤其在互联网技术成熟的今天,各行各业的大数据,规模从 TB 到 PB 到 EB 到 ZB,以 3 个数量级的阶梯迅速增长。这些数据,很难用传统的数据库工具来存储或处理,人类在认知上把握如此巨量的数据时面临更大的挑战。当然,根据摩尔定律,每隔 18 个月电脑硬件性能将提升一倍,所以人类保存数据的能力提高也是必然。
第二点,数据类型的多样性。普适计算条件下,互联网社交媒体高度发达,使得人类生产数据的能力不断强大。主要通过 SQL 标准语言来对数据库进行操作的,传统的关系型数据库系统,能够存储和查询的往往是结构化的数据,但对于互联网大量充斥的非结构化数据则束手无策,像文本、图片和视频。如何处理、分析这些数据成为一个问题。以 NoSQL 数据库为代表的新型数据库的兴起,突破了关系数据库模型过于注重数据一致性原则和数据的结构,能够在数据大量增加时,通过横向扩展(scale out)来扩大服务器的容量,这样就解决了数据存储的问题。
第三点,产生、更新频率。当下,我们需要对不断流入的大量数据进行实时处理的流数据处理技术,这是与关系型数据库从更本上完全不同的一种数据处理技术。"关系数据库需要先将数据保存到位于硬盘上的表中,然后,在应用程序发出查询的时间点,对所有的数据一起进行处理,并将结果输出到内存中。如此,每次发出查询指令是时都要将这一过程执行一遍,在数据量增加时,性能就会恶化。对应的,在流数据处理中,数据直接在内存中进行处理,实现了高速处理。
通过这样的方式,可以将数据处理的延迟控制在百万分之秒的级别,实现了每秒数十万到数百万条数据的超高速处理。"第四点,数据的价值。我认为这是大数据技术的核心,也就是关于如何高效地从大数据中获取有意义的信息。对于这一问题的实践衍生出机器学习、模式识别、数据挖掘等一大批数据智能技术。机器学习是人工智能的研究课题之一,是一种在计算机上实现相当于人类自然学习能力的技术和手段,通过对一定数量的样本数据进行分析,可以从这些数据中挖掘出有用的规则和知识。数据挖掘是对大量存储的数据进行分析,并从发现数据中隐藏的相互关系和模式的技术。基于数据挖掘和机器学习等数据分析技术的成熟,人类使用数据的能力不断提高。
借助海量、开放、链接这三个基本属性,大数据技术的实用性及其广泛,可以涉及社会生产的各个层面。在科学领域,大数据技术是机器学习一项重要应用。2010 年之前,关于机器学习的应用主要体现在如,车牌识别、手写字符识别与网络攻击防范等方面。但在 2010 之后,大数据概念兴起,机器学习开始呈现出与大数据技术高度耦合的状态,所以,大数据技术就是机器学习应用的最佳场所。
大数据的亮点在于预测,2009 年,甲型 H1N1 流感暴发的几周前,"谷歌流感趋势"成功预测了流感在美国境内的传播,其分析结果甚至具体到特定的地区和州,并且非常及时,令公共卫生官员备感震惊。2014 年,百度预测世界杯比赛结果,从淘汰赛到决赛全部预测准确。大数据之所以拥有如此巨大的实践价值,关键在于机器学习技术的应用,使得数据在其中发挥了作用。大数据的核心是利用数据的价值,而机器学习则是利用数据价值的关键技术。对于大数据而言,机器学习是不可或缺的,同时对于机器学习而言,更多的数据也会提升模型的精确性。两者相辅相成,共同促进。
4.2 数据密集型科学与科学第四范式。
之前我们提到大数据的出现是现代科学信息化过程中极具里程碑意义的,不仅仅是因为我们可以生产大量数据,并且也有足够的能力来处理,而是它对科学范式基本理念的突破性变革。大数据诞生伊始被定义为是关于能够处理大量数据的技术挑战层面,也就是所谓的"3V".但是,基于 3V 的定义也面临很多问题,最为重要的是,容量、多样性和速度都是关系概念,因此,大数据会被简单的认为是依赖于硬盘技术进步的昔日的小数据。仅仅强调绝对的数据量很难在关于科学方法论上建立更有意义的发展。所以,"4V"概念的兴起也弥补了上述不足,这也与数据科学的出现有关。数据科学是"一个系统性的交叉学科,其目标是通过各种方式从数据中获取有价值的知识或认识,无论数据是结构化的还是非结构化的。"有人认为数据科学就是研究数据的科学,与统计学类似,因为统计学研究的对象也是数据。但是,两者分别所指的"数据"并非同一概念,数据本身是一种极为宽泛的概念,只要是对客观事物记录下来的、可以鉴别的符号都可以称之为数据,包括数字、文字、音频、视频等。"统计学研究的数据虽然类型丰富,但往往局限于结构化数据,比类别数据、有序数据等定性数据,定距数据、定比数据等定量数据。"数据科学所指的数据范围则更为宽泛,不仅包括这些传统的结构性数据,而且还包括文本、图像、视频、音频、网页等半结构化和非结构化数据。这些数据体量巨大,是大数据时代的主要成员。
数据科学主要包括两个方面:"首先,用数据的方法来研究科学和用科学的方法来研究数据。前者包括生物信息学、天体信息学、数字地球等领域,后者包括统计学、机器学习、数据挖掘、数据库等领域。"数据的方法来研究科学,在早期天文学领域应用极为频繁。我们知道,开普勒关于行星运动的三大定律就是从大量观察数据中推出的数据模型而发展出来的。另一方面,用科学的方法研究数据,包括数据的获取、存储和数据的分析。其中涉及大量的技术问题,包括数据量的存储问题和数据结构的处理问题。具体来说,就是从某些已知的数据出发,推导加工出一些新的数据。在描述数据的时候,不仅描述数据本身,还要描述数据之间的联系,发现各因素之间的相关性,从而在数据中提取新的信息。事实上,用数据的方法来研究科学与用科学的方法来研究数据,科学实践在两者之间的区分是很模糊的,往往被看作为视角的不同,完全可以相互利用、同时进行。
朱扬勇、熊赟提出将网络空间的所有数据作为"数据界"(data nature)来研究,认为数据科学主要有两个内涵:"一个是研究数据本身、包括类型、状态、属性和变化形式和变化规律;另一个是为自然科学和社会科学研究提供一种新方法,称为科学研究的数据方法,其目的在于揭示自然界和人类行为现象和规律。"数据密集型科学研究被认为是继实验方法、理论方法和模拟方法之后的第四种科学研究范式。上面提到的开普勒模式就是第四范式的典型,"第三定律就是在对所采集并仔细保存的实验数据进行挖掘和分析的基础上建立起的新理论。"它以收集、管理和分析海量数据以获得新发现为重要特征,需要研究数据的现象和规律,这促使科学开始思考关于数据的科学,即数据科学。
已故图灵奖获得者吉姆×格雷认为:"科学的世界已经发生变化。新的研究模式是通过仪器收集数据或通过模拟方法产生数据,然后用软件进行处理,再将进行的信息和知识存储于计算机中。科学家们只是在这个工作流中相当靠后的步骤才开始审视他们的数据。用于这种数据密集型科学的技术和方法是如此迥然不同,所以,从计算科学中把数据密集型科学区分出来作为一个新的、科学探索的第四范式颇有价值。"目前,国际上对于大数据方法中的模式(pattern)与模型(model)并没有作区分。大数据的目标就是发现海量数据中潜在的模型。在此意义上,大数据方法是一种模型方法。皮奇(W. Pietsch)认为大数据科学首先需要与计算机仿真区分开来,指出这是信息技术应用于科学中的两种截然不同的方法。计算机仿真可以视为以计算的方式检验数学模型的含义,而数据科学则是在大量数据集中寻找内在的因果结构。他指出两者有如下区别:第一,研究对象不同。大数据面向的是海量数据,而计算机仿真面向的是根据系统建立的数学模型。因此大数据是数据驱动的,计算机仿真是模型驱动的。第二,推理逻辑不同。大数据是根据数据归纳得出数据模型,而计算机仿真是根据模型演绎得出计算结果。第三,自动程度不同。大数据从数据获取、数据建模以及预测均是计算机自动进行,而计算机仿真只有仿真实验这一步是自动的,仅仅占了科学研究过程中的一小部分。
第四,说明力不同。计算机仿真的模型假设为模型的说明提供了坚实的基础,大数据由于建模过程的自动化而缺乏这样一个基础。因此前者说明力较高,而后者说明力较低。
综上所述,尽管大数据与计算机仿真都运用了现代计算机以及网络技术,但两者有着诸多区别。这也印证了吉姆×格雷的观点:大数据是继实验、理论以及计算机仿真之后的第四范式。在此意义上,大数据带来了新的科学方法,代表着科学方法的变革。
大量科学数据在处理过程中涉及三个主要阶段,数据获得、数据存储和数据分析。这里我们集中讨论数据分析这一块。皮奇提出数据密集型科学的两个主要特性:"1)数据表征了所有(至少为大部分)与特定研究问题方面相关的被审查现象的构造(configuration)。2)实现了从数据捕获、数据处理到数据建模的整个科学过程的自动化。"这种数据观点十分类似于波根和伍德沃德的立场,认为大部分科学现象都是从数据中推导出来,因为当下的数据体大巨大、内容丰富,足以覆盖我们所研究领域的大部分现象。另外,依赖于标准性极强的特征,数据一旦作为科学研究的基底,科学家完全可以通过复杂的建模工具实现现象模型的推导,以及理论模型的建构,这就实现了整个科学发现过程的自动化。可以说,大数据背景下的知识发现过程与 BW 所预想的从数据推导现象的过程如出一辙,其中推导方式涉及统计推理、归纳整合和模式识别。所以,数据密集型科学范式就是我们在第三章中所总结出的基础主义路径,即将科学知识发现建立在数据之上;只要数据的体量足够大,我们便可以从中得到任何想要的知识。当然,第四范式也受到传统科学方法的很大争议,其中涉及很多科学哲学概念,如解释、模型和因果性,较为核心的问题就是相关关系推理的合法性。
4.3 大数据科学对基础主义与经验主义的整合。
4.3.1 逻辑经验主义的遗产。
在第二章结尾谈到关于语义模型的经验主义特征,因为语义观假设数据模型与底层现象之间存在某种同构关系,在对现象进行解释时不免将数据模型的经验背景"偷运"过来,而丧失了实在现象的先验特性。所以,虽然语义论者极力推崇以模型族的方式重构科学知识,但是其依然继承了逻辑经验主义的遗产。经验主义者认为,要接受一个科学理论,我们不需要承诺那些不可观察的事物能通过人的知觉系统或实验仪器获得。他们声称科学理论被接受或否定仅仅基于一个基础,就是符合观察的事实能够拯救现象以实现本质规则的统一描述。大数据科学背景下,数据的体量庞大往往能够覆盖所有的经验可能的事实,它们是作为理论推导的基质。同时,数据又是作为经验事实的表征,使得大数据科学研究成为典型的经验主义,由此获得一个"美名":"大数据经验主义或新经验主义。"另一方面,在基础主义看来,即使数据和数据模型是理论负载的,但相关的理论负载并不会影响实在现象的获得。因为数据-现象之间的关系并非演绎或归纳推理,而是一种提供证据的过程,这一过程是实践性的。也就是说,数据-现象推论不会受科学家的主观意图所影响,现象的获得也不会受限于局部数据的特征性。理论拯救了现象,由此捕捉了世界的结构。并且,理论也不必为解释数据或者为数据的合理性提供证据,理论只需要解释现象即可。所以,数据-现象-理论之间形成一种对称的线性关系。BW 极力在数据和理论之间做出严格且清晰的区分,就是为拟建理论博取客观合理性,但是这一点如在第三章所论证的那样难以实现。一般来讲,理论的前身是作为理论模型的建构,其涉及的基础理论前提和主观背景假设往往是不可避免的。由此看来,BW 两人早年文章中所体现的基础主义立场是不彻底的,也是其基本观点的最大弊病。
以数据密集型科学为代表的大数据科学不仅仅是擅长于数据挖掘和模式提取技术,更值得一提的是其背后更为深刻的数据基础主义假设。这一假设认为,整个人类的知识总量和现代信息技术为我们提供了一个巨大的"经验数据池",之所以称之为经验的即是因为数据获得的理论背景,而理论的获得也可以通过数学或经验科学的背景理论所建构出来。所以,数据池与理论之间是一个巨大的互动循环过程。当然,这也很容易导致无趣,比如因为科学知识的基础建立与经验数据之上,那么就无所谓纯粹而普遍的自然定律,一切皆是科学家主观建构的;再比如,经验数据的所用被过度夸大,有人就认为科学完全可以放弃理论获取,转而让数据自己发声,甚至提出因果关系以数据之间相关关系代替,这一论点在下一节主要论述。当然,这些看法无疑是片面的,其基础主义立场脱离了 BW 之前对于理论拯救现象的基本设定,而过度放大了数据自身的单一作用。
科学知识的发现是一个互动的过程,科学家往往先是建立起他们的第一人称知识,再扩展出被共同体所认可的客观知识。基于建构主义的系统可以同时弥补BW 在 D-P-T 模型中的数据定位偏离以及大数据经验主义过度乐观导致的不足。
"大数据时代引发的自动科学发现可以为提供知识导向的归纳提供方法,使其能够从数据中学习模式并且预测,并且为数据模型驱动的演绎推理提供方法,能够帮助科学对数据模式做出说明和解释。"所以,数据经验经验主义与基础主义整合不仅给予科学归纳主义更多的可能性,同时,概率认识论的发展与因果性问题方面的工作提升了大数据发现本身的能力,使其应付更多不确定性问题。
4.3.2 因果性与基于预测的相关关系。
关于因果关系的讨论由来已久,最具代表性的观点来自休谟,他讲因果性归结于心理联系,形成形而上学意义上对普遍知识的怀疑论。现在,科学解释和科学系统的根基依然是因果关系或者说因果机制。我们习惯于先假设世界是如何运作的,然后通过收集和分析数据来验证这种假想。当然,这一过程也不是获取知识的唯一进路。建立在相关关系分析法基础上的大数据方法就可以实现对科学现象的预测。"相关关系的核心是量化两个数据值之间的数理关系。相关关系强是指当一个数据值增加时,另一个数据值很有可能也会随之增加。相反,相关关系弱就意味着当一个数据值增加时,另一个数据值几乎不会发生变化。当然严格的讲,即便没有相关性,另一个数据值也可能大幅变化,只是没有趋势可循罢了。
相关关系通过识别有用的关联物来帮助我们分析一个现象,而不是通过揭示其内部的运作机制。通过给我们找到一个现象的良好的关联物,相关关系可以帮我们捕捉现在和未来。"当然,相关关系是无法预知未来的,它们只能预测可能发生的事情。由此,我们理解世界不再需要建立在假设的基础上,这个假设是指针对现象建立的有关其产生机制和内在机理的假设。大数据的相关关系分析法更为准确、快速且不易受偏见的影响,可以解决基于假设的易错的弊病。
安德森(C.Anderson)讲到,大量数据从某种程度上意味着"理论的终结".
"用一系列的因果关系来验证各种猜想的传统研究范式已经不再实用了,如今它已经被无需理论指导的纯粹的相关关系研究所取代。"这种说法极为大胆,意味着,直到目前为止,我们一直都是将理论应用到实践中来分析和理解世界,而如今的大数据时代,我们不再需要理论,只要关心数据就足够了。这就表示所有的普遍规则都不重要了,重要的是数据分析,它可以揭示一切问题。"理论的终结"暗示着,尽管理论仍存在于像物理、化学这样的学科中,但大数据分析不需要成形的概念。这种说法实在荒谬。实际上,大数据是在理论的基础上形成,比如大数据分析就用到了统计和数学理论,有时候会用到计算机科学理论。这些虽然不是像万有引力等描述特定现象产生原因的理论,但依然是理论。而且我们需要意识到,建立在这些理论上的大数据分析模式是实现大数据预测能力的重要因素。
当然,我们需要意识到,对于因果问题的证实本身就是个难题,即使使用数学这种精确的方式,因果关系也很难得到证明;我们也无法通过标准的等式将因果关系表达清楚。所以,与相关性一样,因果关系被完全证实的可能性几乎是没有的,我们只能说,某两者之间很可能存在因果关系。
虽然,形而上学意义上的因果关系很难得到证实,但是,这并不意味者由数据推出的相关关系就拥有了于因果关系相等的说明效果。实际而言,大数据很多都是不相干的噪音。除非有很好的信息技术进行过滤和处理,否则,由错误数据导出的结论必然也是误导性的。虽然,大数据为我们提供了观察世界的新角度,但它还是像原油一样粗糙浑浊,没有良好的加工方式,就无法加工成为人类所需要的汽油和阿司匹林。同时,数据表现存在先天的不确定性,大数据或数据科学中,不再筛选样本,总体数据的模型映射往往只取决于数据本身的好坏。大数据方法所产生的不确定性技术上称为过拟合,即对数据本身的过度依赖而使得数据集中的噪音和不确定性被放大。所以,建立于大数据基础上的相关关系是缺乏普遍确定性的。
关于相关关系是否可以取代因果关系,或者说相关性的获得成为科学研究的中心一直充满争议。《大数据时代》的译者周涛教授认为:"有了机器学习和数据挖掘,我们解决问题的方式变成了训练所有可能的模型和拟合所有可能的参数:问题从一个端口进去,答案从另一个端口出来,中间则是个黑匣子,因为没有人能够从成千上万的参数拟合值里面读到'科学',我们读到的只是'计算机工程'.
因此,得到了'结果'而忽略了'过程'.与其说大数据让我们重视相关甚于因果,不如说机器学习和以结果为导向的研究思路让我们变成这样。"但是,我们也要承认,大数据分析方法并不都是如此。比如,科学家在瑞士日内瓦建造大型对撞机,从中获取了人类历史上最大规模的单位时间数据,其目的是试图解答关于因果关系的伟大问题,即证明希格斯玻色子是否存在。对该问题的深入探究绝非仅仅期望于某种相关关系的验证。所以,周涛坦然:"认为相关重于因果,是某些有代表性的大数据分析手段(如机器学习)里面内禀的实用主义的魅影,绝非大数据自身的诉求。放弃了对因果的追求,就是放弃了人凌驾于计算机之上的智力优势,是人类自身的放纵和堕落。"当然,退一步讲,我们完全想到相关性与因果性两者之间并不是完全对立的关系。很多情况下,一旦我们完成了对大数据的相关关系分析,就会继续研究更深层次因果关系,找出背后的因果机制。在任何时代,我们都希望用因果关系来说明所发现的相互关系,即使因果关系只是一种特殊的相关关系,相关关系分析也不能取代因果关系的作用。但是,反过来讲,相关性分析却能够指导因果关系的发现。
4.3.3 大数据定律。
现在,大数据时代下的数据产量惊人,近十年的知识增长量等于过去人类一百年的知识总量。技术层面,数据库和数据仓库的迅速扩大,已经导致"数据丰富,信息贫乏,缺少知识"的尴尬局面。于是,从数据库中发现知识(KnowledgeDiscovery in Databases)成为热点。"对数据对象进行分类或聚类,挖掘数据库中的关联规则或者序列规则,分析作为孤立点的数据对象的异常行为,或者预测数据对象的演变趋势等等,人们开始关注发现知识任务的背景,"关注如何描述知识表征的特征和类型。所以,从普遍知识的获取方面,知识产量以及我们的思维方式已经在传统的定律知识方面有了大幅度的扩展。
这就是大数据科学所引起了关于科学定律与解释的一般性问题。因为大数据科学缺乏解释力,其得到的结论往往受到普遍性的质疑。但是,追求普遍与一般性的定律在广泛科学研究领域也是不现实的。对于科学解释的两种区分,第一种,寻求的一般定律或规则的统一性解释;另一种,是因果解释。大数据能够提供因果解释,但是很难提供统一性的解释。关于科学解释的哲学争论中,这一区分是明显地。亨普尔和奥本海默提出的传统意义上的演绎律则模型就属于第一种解释情况。它认为"解释作为论证,是从一般性定律加上边界初始条件的组合而推出解释项。这样的解释是具有层次性的,解释的更高层次被用来显示现象是如何适应(fit on)不断提高的一般性定律的框架。"相反的,大数据模型并不能提供这样的解释力,因为它们往往缺乏一般定律的层次结构与普遍性。
第二类科学解释的说法,即因果解释,当然这类解释需要在因果性概念下才能够被理解。因果解释通常以谈论因果故事的方式告诉我们现象为什么发生,但不能获得统一性。这一进路的发展近期集中于统计相关性或反事实条件解释,而大数据建模技术很多地方都与它们有原理和技术上的交叉,可以讲大数据模型十分适应因果解释。
传统的科学模型依靠于有效的数据还原和恰当的知识结构。而大数据模型往往没有明显地层次结构,也缺乏相应的解释力。但是,如今大数据建模被普遍应用在科学研究领域,因为现有的科学,要么可以通过科学定律予以说明,要么可以通过因果机制予以说明,又或者可以通过模型的隐喻类比予以说明。"而大数据模型是直接从具体数据形式的经验世界通过超计算量、高复杂性的算法挖掘得来。科学研究的总部直接建立在海量的数据中,忽视了概念与理论,数据中的信息就已经足够了,只需要挖掘即可。"同时,在很多交叉学科中,定律是理论并没有我们想象中的足够,相反是极为匮乏的,而一般性的规律根本就不存在。比如,一般规律存在太多分散的、无法列出的例外。这种情况下,数据驱动的大数据模型可能就是唯一可行的方式。比如在一些复杂性科学中,比如社会科学中的现象,也许根本不可能达到统一性解释的地步,因为它们本身缺乏显著的一般性定律。所以,我们几乎不可能以人类感知的方式获得社会现象的统一性理解。大数据定律往往在不需要理解的情况下起作用,比如,机器翻译不需要句法知识的支撑,打广告也不需要传统的广告学知识,选举也不需要深入的政治学科知识。
这不仅仅是算法与技术的变革,也是对大数据科学因果解释的一种肯定。