大数据的兴起,给传统的科学哲学带来许多新挑战,特别是对诸如科学理论的作用、因果关系、科学规律等科学哲学的核心问题提出了有别于传统的新观点。齐磊磊博士概括总结了大数据相关学者的论述,在《哲学动态》杂志发表了题为《大数据经验主义---如何看待理论、因果与规律》的重要文章〔1〕。她在文中提出了大数据经验主义的概念,并系统提炼了大数据经验主义的科学哲学观点,这是大数据哲学的重要提炼和概括。她认为,大数据经验主义是一种新经验主义(以下简称为大数据主义),并将其观点概括为三点:1.在科学理论问题上,大数据主义认为“理论已经终结”,否定科学理论对科学发现的作用;2.在关系到科学存亡的因果性问题上,大数据主义否定因果性的存在,提出由相关性取代因果性;3.在世界的本质问题上,大数据主义否定世界的规律性,认为世界的本质是混乱的。树立起大数据主义的靶子之后,齐磊磊进行了批判,并明确提出反对大数据主义对大数据的神化。问题是大数据主义果真要彻底否定理论、因果和规律吗?通过相关文献的研读,笔者发现,齐磊磊对大数据主义的概括过于以偏概全。为此,笔者深入大数据学者的原始文献,按照齐磊磊所分的理论、因果、规律三个维度与其商榷,试图还原大数据主义的真相,以便让人们有机会了解大数据主义者的真实观点究竟是什么。
一、大数据主义者如何看待理论
齐磊磊将大数据主义的第一个特征概括为对理论的全盘否定。她认为,在对待理论的态度上,大数据主义持彻底否定的态度,认为在大数据时代,只要数据就够了,理论成了多余,甚至彻底无用。齐磊磊得出这个结论的依据主要有三个,一是大数据前期的代表人物安德森的观点,二是畅销书《大数据时代》的作者舍恩伯格的观点,三是哈尔滨理工大学孙博文教授的观点。孙博文教授的观点是在一次会议上提出的,笔者没有参加这次会议,所以无从考证其观点的原意。下面我们主要来看安德森和舍恩伯格的观点。
安德森是美国《连线》杂志的主编和主要撰稿人,齐磊磊引用的观点出自安德森于 2008 年 6 月23 日发表在《连线》杂志上的文章:《理论的终结:海量数据使科学方法变得过时》,不过齐磊磊没有找到并阅读原文,只是转引了舍恩伯格在《大数据时代》一书中所引用的部分观点。作为大数据时代的预言家,在大数据时代来临的前夜,安德森就预感到了大数据的浪潮已经惊涛拍岸,并提前预言大数据对我们传统科学方法将带来怎样的革命。安德森一开始就用统计学家乔治·博克斯在 30 多年前的抱怨:“所有的模型都是错的,虽然有些很有用”.〔2〕安德森认为,传统科学发现的方法都是从理论假设出发,建立模型,然后用经验检验模型的正确性。但这种猜想性的模型往往出错,而海量数据的出现改变了这种科学知识的生产方式,Google 等大数据公司不再首先从理论假设、模型出发,而是从数据出发,从海量数据中归纳、提炼、发现其中的规律。安德森提出这些观点是有前提的,首先是海量数据,即大数据的出现;二是他谈论的主旨是知识发现的问题;三是他所说的“理论的终结”只是针对知识发现的出发点而言。他认为,我们已经进入了 PB(Petabytes)时代,即现在所称的大数据时代,数据资源像洪流一样爆发、增长。面对 PB 级别的大数据,小数据时代的“假设-模型-检验的科学方法变得过时了”.“现在有更好的方式。允许我们这么说:相关性就足够了。我们可以停止寻找模型。我们可以对数据进行分析,而不需要预先假设它会显示什么。我们可以把数字扔进世界上从未见过的最大的计算集群中,并让统计算法找到科学无法找到的模式。”〔2〕这就是说,在大数据时代,知识的发现可以从数据开始,不再需要预先做出理论的假设。所以,安德森所说的“理论的终结”不是说大数据时代就不需要理论,不再有理论,只是科学发现不再是从理论出发,而是从数据出发。他说:“大量的可用数据,以及处理这些数据的统计工具,提供了一个全新的方式认识世界。通过相关关系而不是因果关系,即使没有清晰的模型、统一的理论,甚至没有任何机理解释,科学依然能够取得进步。”〔2〕因此,安德森并不是全盘否定科学理论,只是说在大数据时代,科学发现可以从数据开始,而不是必须从理论假设出发。
齐磊磊认为,舍恩伯格的观点与安德森一致。其实,舍恩伯格虽然引用了安德森的观点,并且也同意安德森从数据及其相关性出发来进行科学发现,但在对待理论的态度上,舍恩伯格没有安德森极端,而是有所保留。舍恩伯格虽然也认为,在大数据时代,从海量数据中发现相关关系比寻找因果关系更重要,科学发现更多地依赖于数据,而不是预设的普遍规则,应尽量让数据自己说话。在大数据时代,“所有的普遍规则都不重要了……重要的是数据分析,它可以揭示一切问题。”但是,他并不完全否定理论在大数据中的作用,因为“大数据是在理论的基础上形成的”,例如大数据也要使用统计学理论和计算机理论。在数据的收集、处理、解释等环节中也要用到相关理论,他在书中明确告诫:“大数据时代不是理论消亡的时代,相反地,理论贯穿于大数据分析的方方面面。”〔3〕93因此,齐磊磊将舍恩伯格也归入理论终结论者是不太客观的。