大数据主义者对理论、因果与规律的认识(2)
时间:2017-04-10 来源:未知 作者:chunt 本文字数:11162字
科学发现模式问题是科学哲学极其重要的问题,历史上就有“科学始于观察”还是“科学始于问题”的争论。大数据来临前夕,美国计算机专家、图灵奖得主吉姆·格雷(Jim Gray)就敏锐地认识到大数据对科学发现的意义。他在 2007 年的一个发言中,首次提出了随着大数据的兴起,科学研究中出现了第四种研究范式。〔4〕XViii他对历史上的科学研究范式,即科学发现的模式做了系统的分类,认为历史上曾出现过三种范式:经验范式、理论范式和计算范式。经验范式是科学发现的第一种范式,也是历史最久的范式,它的逻辑起点是人类的观察或实验,然后用归纳法将观察或实验数据归纳、提炼出科学理论,这种范式认为科学始于经验。逻辑实证主义就是这种主张的代表。逻辑实证主义主张“科学始于观察”,并主张归纳法作为其基本方法。随着逻辑实证主义被波普尔等后来者多方批判,其主张的发现模式逐渐被波普尔所主张的“科学始于问题”的发现模式所取代,这就是第二种范式,即理论范式,它出现于第一次科学革命之后,此时的科学家主要从已有理论出发,发现问题,然后进行经验检验,这就是波普尔的“猜想-反驳”模式。波普尔最重要的依据是观察渗透理论,他认为没有纯粹的客观观察,科学发现都因我们先有疑问、问题、猜想(P),然后提出相应的尝试性的假设(TT)或模型,再进行观察或实验(EE)以检验假设或模型的正确性,这就是波普尔着名的“猜想-反驳”科学发现模式(P1-TT-EE-P2)。第三种范式出现于 20 世纪 50 年代计算机发明之后。由于问题的复杂性,我们无法直接观察或实验,只能首先建立模型,然后使用计算机进行模拟、仿真或计算,通过仿真、计算来模拟真实场景以达到研究的目的。格雷认为,随着海量数据的出现,科学发现模式发生了重大变化,在前三种科学发现范式的基础上出现了第四种范式,即数据密集型科学范式。数据密集型科学范式的逻辑起点是大数据,它从大数据出发,通过数据之间的相关关系发现大数据所呈现出来的数据规律。由大数据所构成的数据世界成为数据密集型科学研究的直接对象,数据挖掘是大数据时代科学研究最重要的方法,数据规律是数据密集型科学最重要的成果。当然,格雷也特别申明,第四种范式与前三种范式并列存在,相互补充,共同构成了科学研究的范式体系,它绝不是要取代前三种范式,只是作为前三种范式的重要补充和完善。格雷对科学研究范式的分类及其对第四种范式的论述,比较充分地表明了大数据主义者对经验、理论和数据的态度。
大数据革命带来了科学发现的新途径与新模式,也改变了理论在科学发现中的作用。从大数据相关学者,特别是安德森、舍恩伯格、格雷的论述中,我们可以提炼出大数据主义的科学发现观以及理论在科学发现中的作用。(1)数据成为科学研究的直接对象。以往的科学研究都是直接面对自然界或人类社会,而大数据的兴起以及数据世界的形成,让我们摆脱了对直接对象的依赖,取而代之的是作为自然或社会现象映射而成的数据世界,这样科学研究可以直接以数据世界为研究对象。(2)大数据彻底改变了科学数据的采集方式。自从经验科学兴起之后,数据就成为科学研究的重要手段,然而,以往的数据都是研究者预先设计好目的,然后进行观察或实验,所得数据已经被观察者污染,也就是观察已经渗透理论。然而,在大数据时代,数据主要来自智能感知设备、网络浏览或者网络社交等留下的数据足迹,这些数据因为不是研究者预先设计而获得的,没有被研究者污染,因而更具有客观实在性。(3)大数据时代凸显出数据在科学发现中的重要作用。以往的科学数据只是验证科学假说的工具,科学发现主要依赖于理论的猜想,即使是逻辑实证主义的“科学始于观察”,其观察仍然渗透着理论。但是,在大数据时代,数据具有了客观性,而且从数据出发,就能发现数据中蕴含的规律性,因此带来了“科学始于数据”的科学发现新模式。(4)理论在科学发现中的作用方式发生了重大变化。在大数据时代,初始数据虽未被采集者污染,但在随后的数据挖掘过程中,理论开始渗入其中,比如数据仓库的选取、挖掘工具的选择以及挖掘结果的解释等,都渗透着数据挖掘者的意图。这就是说,在大数据时代,科学发现依然渗透着理论,只是渗透的环节被延后罢了,理论在数据挖掘、科学发现中依然起着重要的作用。
安德森、舍恩伯格和格雷,都是大数据主义的代表人物,他们都强调在海量数据面前,科学发现不能从理论假设出发,必须直接从数据出发,让数据说话,但是他们并不是彻底排斥理论,只强调大数据时代出现了科学发现的新模式。正如舍恩伯格所说:“大数据绝不会叫嚣‘理论已死',但它毫无疑问会从根本上改变我们理解世界的方式。很多旧有的习惯将被颠覆,很多旧有的制度将面临挑战。”〔3〕94《大数据主义》的作者史蒂夫·洛尔借用人工智能专家彼得·诺威格的话说,数据具有不可思议的威力,“但是,方法论中仍然包括模型,这是毫无疑问的。理论没有终结,而是正在发展,并拥有各种新的外在形式。”〔5〕165齐磊磊所说的大数据主义彻底抛弃理论,大数据时代不需要理论,这些并不是大数据主义者的真正主张,而是她对大数据主义者的误读,或者说是以偏概全。
二、大数据主义者如何看待因果
齐磊磊对大数据主义第二个批评是大数据的因果观。她认为,大数据主义者认为,因果性在大数据时代不再存在,已经完全由相关性取而代之。她主要是以舍恩伯格为靶子来进行批判的。她在文章中批评说,舍恩伯格将相关关系分析作为大数据时代的新视野和预测新工具,以此看到了从前未曾留意的联系,并掌握了以往难以理解的社会动态和复杂技术。最为关键的是,舍恩伯格认为知道“是什么”就够了,而不必知道“为什么”.舍恩伯格还特别强调要“让数据自己发声”,不必过多探究现象背后的本质。由此,齐磊磊得出结论说,大数据主义企图消除因果关系,否定因果律,试图用事物的相关关系取代因果关系。随后,她通过因果与相关的概念区别,并从哲学、数学、逻辑等维度来讨论两者之间的区别与联系,特别用量子纠缠作案例来说明,由此来批判舍恩伯格观点的错误。
齐磊磊所树立的批判靶子对吗?舍恩伯格的真实观点是什么?让我们回到舍恩伯格的文本。据亚马逊图书智能推荐系统介绍,舍恩伯格说:“亚马逊的推荐系统梳理出了有趣的相关关系,但不知道背后的原因。知道是什么就够了,没必要知道为什么。”〔3〕71舍恩伯格的确认为,在大数据时代,相关性分析可能比因果性分析更重要。“在小数据世界中,相关关系也是有用的,但在大数据的背景下,相关关系大放异彩。通过相关关系,我们可以比以前更容易、更快捷、更清楚地分析事物。”〔3〕71舍恩伯格很清楚,因果性是相关性的特殊关系,相关关系缺少因果关系那种必然性,只具有可能性,“相关关系通过识别有用的关联物来帮助我们分析一个现象,而不是通过揭示其内部的运作机制。”〔3〕72舍恩伯格只是在方法论的意义上对相关性进行肯定,并没有在本体论上对事物的因果性进行否定。对事物进行因果分析,必须深入把握事物间的内部机制,然而,面对大数据时代的海量数据,这种内部机制很难及时被把握。因此,他认为,与其用臆想的因果假设,不如从表象出发,快速把握它们的相关关系,“大数据的相关关系分析法更准确、更快捷,而且不容易受偏见的影响。”〔3〕75特别是在日常生活、商业分析中,相关性分析更是一种快速、高效的分析、预测工具,“相关关系很有用,不仅仅是因为它能为我们提供新视角,而且提供的视角都很清晰。而我们一旦把因果关系考虑进来,这些视角就有可能被蒙蔽。”〔3〕88舍恩伯格知道,相关性只是一种表象,因果性才是表象背后的本质,因此他并不否定因果性的存在,相反,他认为相关性是认识因果性的有效途径。“相关关系分析本身意义重大,同时它也为研究因果关系奠定了基础。”〔3〕88“在大多数情况下,一旦我们完成了对大数据的相关关系分析,而又不再满足于仅仅知道’是什么‘时,我们就会继续向更深层次研究因果关系,找出背后的’为什么‘”〔3〕89他明确地表示:“因果关系还是有用的,但是它不再被看成是意义来源的基础。”在此,我们可以说,舍恩伯格强调了相关性对大数据的重要性,但他并不否定因果性的存在,更没有说要用相关性完全取代因果性。
相近分类: