5、论科学发现的数据建构模型
综合前三章,语义观自身面临着经验主义困境,而 BW 的 D-P-T 线性模型所存在的三方面问题似乎总是难以逃脱数据的经验背景。显然的,我们需要语义观对"共享结构"的概念最初进一步修正,同时也希望 BW 对数据、现象和理论的区分和关系做出进一步解释。但是,大数据技术环境下的双模式整合,使得我们完全可以通过非线性的系统性结构对数据、现象和理论做出区分和规定。本章,首先分析巴勒×琼斯(D. Bailer-Jones)对于现象建构主义的认识论立场,他从对现象概念的理解为出发点指出,尽管数据源于现象并证实待测理论,但是现象一定是通过理论模型重构起来的。由此,笔者进一步简化模型的表达,强调实在论的本体论立场,给出数据、现象和理论的三角模型以代替。所谓三角模型就是说:1,数据不仅为现象提供证据,也为证实待测理论提供证据;2,数据-现象推论实为从数据通达本质现象的过程;3,理论预测可观察现象,而解释不可观察现象。
5.1 对于数据与现象模型的认识论刻画。
从前几章我们可以看出数据、现象与理论如何通过各种类型的模型相互联系。
总而言之,数据从对现象的经验研究和审查中产生,审查现象意味着观察现象或对它做实验,做实验的过程就是某种意义上的观察。观察是需要工具和技巧的,这些观察技术不需要直接地与待测理论相联系,这些理论涉及甚至直接导致实验的构造:实验模型或观察设备的设定,如望远镜、显微镜、盖格计数器等。一旦数据被生产,我们就需要面对一个问题,即数据充满了测量错误和亟需纠正的偏差。数据分析过程的结果其实就是数据模型,因为仅当原始数据被加工为数据模型,才可能测试关于现象的理论假设,现象提供了数据收集的解释和基础。实际上,我们在定义现象时不可能不涉及理论,因为频繁的现象的描述和定义似乎总是依赖于已经形成的关于这些现象的研究成果,并且从基础上讲至少部分的涉及相关理论背景。
所以,巴勒×琼斯(D. Bailer-Jones)认为现象是在实验中或在观察中被审查的。"虽然,现象可能是在自然或人类环境中遇到的一个对象,但是,如何抓住现象仍然严重的依赖于它的经验审查和理论描述,这就是关于现象的一个或更多存在性的理论模型。理论模型试图提供一个尽可能完整的描述来抓住现象,这样的描述包含构造现象的种种相关因素。"关于现象的数据可以通过一系列不同的实验过程而生产出来。因此,它们显示出单个的或独立的有关现象的证据,同时,在面临不同实验情况时,现象本身被希望展现出独特的健壮性。因为原始数据不能用来确证关于现象的理论模型,所以必须要经历数据分析的程序,并且仅使用对经验测试有用的数据模型形式来表达。因此,经验确证在数据模型和理论模型之间发生,而不是在数据和现象之间发生,也不是在数据和理论模型之间发生。
重新考虑数据、数据模型、理论模型和现象之间的联系,上图显示了数据与理论之间要历经很多步骤。理论模型在把理论应用于现象时扮演了很重要的角色,因为它为数据与数据模型提供了联系,而数据则来源于现象。理论仅仅通过理论模型应用于现象,并且理论仅仅通过理论模型而获得证实,理论模型则联系了理论与数据模型。所以,理论通过理论模型和数据模型,被间接地连接到经验发现。
最后,"现象被描绘的方式与关于现象的理论模型息息相关,相应的,现象也就被形式化的理论假设所塑造。"科学模型和它的现象从一开始就已经相互关联,这里,模型也被设计为现象的模型。也就是说,现象在建模过程期间某种程度上已经被重构了。模型化的现象从某种程度上来说,已经与起初所被接受的、研究的现象相背离。巴勒×琼斯的现象立场与麦卡利斯特极为相似,不过后者是彻底的经验主义,其试图取消科学现象和定律在本体论意义上的地位。与其不同,巴勒×琼斯并没有导向反实在论,而是从认识论角度挖掘数据、现象和理论之间的合理关系,给出从数据、数据模型、理论模型到现象的闭合过程,经历这一过程我们所需要的理论就可以完全得到证实。巴勒×琼斯认为,尽管传统实在论并不倾向于建构主义的气氛,但是,对于现象的研究最终要以关于现象的数据为结局,并且数据随后也将作为对模型的限制。模型与经验证据的联系需要保持强势。虽然有经验的联系,但是我们如何描绘和描述现象不可避免地要与我们将其模型化的方式相联系。所以,我们接受什么样的现象跟我们如何建构模型是密不可分的。
5.2 关于科学现象的本体论版本。
到现在,我们在探讨理论语义观和 BW 的数据于现象之分时总要面临一个重大问题,就是理论如何通过数据(模型)获得对于实在现象解释的合法性。这一问题的解答基于现象的准确地认识,这种认识对于实在论者不能是含混的或者仅仅是认识论形式的,而需要始终在本体论层面得到认可,作为不可变动的前提。
可以这么说,任何一个实在论者,凡是打着"理论拯救现象"旗号的首先都需要面临现象的本体论承诺问题,因为这是我们工作的基础。,由此,从 BW 的现象立场进一步扩展,根据科学哲学中对科学现象的不同立场,现象的解释有以下分类:"A、科学实在论者,如 BW,现象在本质上是事实,被物理理论解释和预测影响。
B、经验主义者,如范×弗拉森,现象是被感官经验观察或知觉的表现。
C、建构主义者,如哈金(Hacking)将物理现象视为由实验和数学工具形成的人工结构。"不同于传统实在论的立场,"人类感官系统能够感知的事件很少得到单一的现象,而是反应了很多不同现象的相互作用(interaction)。"借鉴康德哲学中的现象立场,康德试图调解分别以休谟为代表的经验主义和以笛卡尔为代表的理性主义之间的冲突。承诺物自体本身是不可知的,区分现象(phenomena)与幻相(appearance)之间的不同,康德认为我们理解事物必须建立在知性范畴和感性直观的综合作用下,并依赖于理性对经验杂多进行加工,事物才以现象的方式被人类感知。据此,本文将现象区分为感性直观和知性范畴(简称感性现象和知性现象)两个层面。感性现象是可以观察的,是可错的;纯粹的知性现象对应着事物本质,且因为没有经验直观的作用而是不可观察、不可感知的。按照 BW观点,"知性现象"的说法更符合他们对于现象的理解。但是,问题也由此产生,特定实验环境下产生的数据是否能够推导出知性现象?换句话说,虽然实验室中得到关于铅熔化时的大量离散数据,而且使用统计模型递归的方法可以得到比较可靠的熔点,如 327.5±0.1 ,但是,我们可以确定这就是世界本质结构的反应,即知性现象吗?即使再精密的仪器也存在误差,况且"数据本身就是有特性的",它们是单一、特定的状态反应,而知性现象则是共有的,是事物的本质反应。
所以,数据-现象推论建立在类似归纳推理的方法上,很难达到 BW 所预期的"知性现象".如此,D-P 推论就只能停留在数据和感性现象层面,科学理论就无法"拯救"现象之本体。
所谓的数据-现象推论只能停留在"提供证据"层面,不可能通过数据方法推断事物的本质,甚至对于可观察现象,数据也不能完全正确推断,我们知道天气预报经常预测失误。事实上,数据帮助我们撇清幻相,看到真实现象;将曾经被隐藏的现象转换为可观察现象而提供证据。海王星的发现被视为"牛顿力学最辉煌的时刻",当人们发现天王星的轨道并没有按照"编算"的轨道运行,而是摇摇晃晃、时快时慢,牛顿力学受到了考验。法国天文教师勒维烈(Le Verrier)认为天王星的摄动可能是受到了另一颗行星的影响,于是他通过天王星的运行偏差反推出另一颗摄动行星的位置,按照他的推算,天文学家在预定轨道发现了海王星。数据引导我们发现更多、更可靠的可观察现象,也使得曾经的幻相不复存在。
5.3 数据、现象和理论关系的动态建构模型。
在上一章中,我们提到数据科学可以包括两个方面,用数据的方法来研究科学和用科学的方法来研究数据。这一说法,体现了数据在科学研究中的作用多样性。科学发展早期数据匮乏,数据模型的建立往往是已知理论的量化,这方便与我们队待测理论进行评估和验证。等到了数据可以大量生产的时候,则需要寻求丰富的数学和统计学工具来完成数据的处理和整合,而从中提炼出有价值的模式。
这就是以数据的方法来研究科学,最为典型的例子是开普勒(J. Kepler)关于行星运动三大定律。根据第谷(Tycho. Brahe)生前留下的大量观察数据,开普勒总结出行星绕太阳运行的周期的二次方和行星离太阳的平均距离的三次方成正比,这就是开普勒第三定律。但是,当时开普勒并不能解释其内涵,只是发现行星运行数据更倾向于表达这样的规律。后来牛顿用他的第二定律和万有引力定律将行星运动归结为纯粹的数学问题,即一个常微分方程组,由此推出开普勒三大定律。
虽然牛顿模式的科学范式是基于基本原理的研究且具有深刻的意义,但是如此一来,很多理论科学问题都会变成数学问题,将存在巨大的瓶颈。相反,开普勒定律的发现是以数据模型为基础的,在结构化的数据规范中挖掘规则和模式使得科学家无需将理论发现建立在一般科学定律的基础之上。这也使得我们的科学理论建构更具多元化,更多的科学研究进展是基于开普勒模式的,也就是数据的研究,科学数据是对基本原理的近似。由此,通过收集科学数据并加之简单的数学模型,我们就能处理纷繁复杂的数据以期发现其中暗藏的固定模式。当然,正如之前所述,以科学的方法研究数据和以数据的方法研究科学两者之间并非截然相对。事实上,它们在科学发现进程中是同时进行的,我们可以将数据(模型)和理论置于一个互动的状态,其目的是要符合感官现象。当然,这种符合性并不是一蹴而就的,即使感官现象是有误差、可错的,但是其依然具备可重复性和稳定性。所以,数据模型和理论模型之间的相互调整往往是极为复杂的。
也正是如此,数据的理论负载问题可以说是不可能解决的,而且也无需解决。
因为数据不同于数字,它的出现一定是带有理论或研究背景,否则很难赋予其意义。且不说,所有自然科学中的数据(包括常数)都必须有理论解释,即使在社会科学中,数据的收集分析也受研究方法和研究目的影响而得到。所以,数据在科学实践中不能独立于理论。即使想凭借所谓弱理论负载论题来避免这一困境也是没有必要的,检验待测理论正确性的标准建立在大量的基础理论之上,脱离了背景理论,数据模型只能作为一个量化的状态表征,很难说明任何问题。数据模型与理论的同构关系注定数据并不是单独的在为现象提供证据,在证实广义相对论的例子中,与其说对比数据证实了广义相对论,不如说广义相对论最大程度的与物理学中的基础理论相吻合,当然,这只是说法上的不同。虽然数据的强大处理功能极大地扩展了人类的感官能力,但是,数据本身的基础性质决定了它在科学验证中的作用是有限的,只能表征特定的状态。所以,数据、理论和感性现象的关系是一个动态的相互对应过程,三者的作用是不同的,我们依托科学理论能够拯救知性现象。由此,数据、现象和理论的三角模型中,数据的理论负载问题不需要解决。
理论的最终目的是表征知性现象,但如何正确表征涉及我们对于归纳问题的立场,也就是说科学性质问题与科学方法问题密切相关。至少确定的是,科学理论是可以表征知性现象的,因为科学规律正是对事物本质现象的表述。但是,也要承认在知识论层面,我们无法截然区分知性现象陈述与理论陈述,科学理论的性质使得我们误以为理论就是本质现象。但在本体论层面,显而易见的,理论仅仅是知性现象的表征。所以说,理论预测可观察现象(感性现象),对于不可观察现象则是纯粹的解释。
图 4 中 P1、P2均为感性现象,Pn为知性现象,感性现象是变化的,不可避免的受到人们知识形态的影响。但是可以肯定的是,数据通过对感性现象不断修正而更接近于知性现象层面。另外,数据模型为现象提供证据和为理论提供证据是不同的。相当一部分的科学规律隐藏于事物的表象中,数据模型可以提供相关证据以修正我们的经验观察。数据模型与理论模型是同构的,因为数据模型建构所依赖的背景理论一定是与待检验理论相一致的,否则数据将否认待测理论的正确性。数据模型通过其他理论将待检验理论以一种更为精巧的方式表达出来,归根结底,数据模型只是一种科学方法论意义上的延伸罢了。与其说数据提供证据,不如说数据证实了理论。爱丁顿(A. Eddington)领导的探测队关于日全食的测量数据证实了广义相对论的正确性,也为光线受大质量恒星引力影响的偏折现象提供了证据。理论的产生过程是十分复杂的,绝不只是简单的从观察术语中的推演,理论时常为科学家灵感的假设和尝试。数据使得可观察现象被量化,科学家假设相应理论来解释现象,测量仪器得到的数据具有相对客观性、准确性,保证了假设理论符合真实的现象。这个意义上,我们的经验观察现象(感性现象)和理论都是不断修正的,修正的标准就是数据,保证确证理论解释不可观察现象(知性现象)。
由此,数据、理论和现象之间的关系是一个动态(dynamic)的建构过程,三者的作用是不同的,我们无法从认识论层面将它们清晰的区分开。这里所说的不可区分如同鉴赏油画时的方式,凑上去我们能够看清厚重的颜料和笔触,但这样就丧失了整体的美感。D-P-T 三角动态模型依托于数据建构分析的强大动力,对感性现象和科学理论进行直观的更新和观念性的变革,使得科学理论能够适当的表征知性现象。据此,基于数据的科学三角模型中,数据的理论负载问题就不需要解决了。当然,我们并不能奢求这一模型符合所有学科研究的范式。因各个学科性质的不同,在数据挖掘的前期,数据与现象和待测(拟建)理论之间可能没有直观的联系。但是,通过概率说明方法获得的数据-现象相关性结果,不仅仅建立在传统的以因果关系为主的科学推断模式上。所以,即使动态的科学模型不具有普遍性,也会带来科学发现模式的转换以及思维方式的变革。
科学知识的动态建构模型在认识论层面是对数据经验主义和基础主义的整合,而在本体论层面则是为现象提供本体论承诺。从认识论而言,数据-现象推论、数据的理论负载以及数据-理论之间的区分都是实在论者所面对经验主义的重重障碍。从数据集归纳出的模式需要去除很多噪音的干扰,就像我们画一条曲线穿过一群离散的数据点,显示其潜在的模式。在科学研究中,这会涉及两个作用的综合,即数据对现象提供证据以及科学理论的获得。什么样的模式就决定了我们推出怎样的现象。虽然,在排除噪音、曲线拟合的过程中存在选择性的可能,一旦出现主观选择,那么现象结构表征实在世界就存在很强的任意性。这也是数据驱动科学模式下新经验主义的误区。虽然所有的模式可以同时显示于同一个给定的数据集中,但它们并不具备相同的健壮性(robustness)。BW 的 D-P-T 模型就十分强调现象的健壮性。在允许的噪音水平限制下,依赖于背景知识和理论,我们可以通过相同的过程重复地再现相同的模式;同样,也可以以完全差异化的方式产生相同的模式。"数据集中产生的健壮性的模式合法地提高了现象的地位。
所以,现象就是健壮的模式。"健壮的模式就对应着知性现象,这也是本体论层面建构模型对于现象的本体论承诺。
本体论方面,首先,我认为经验主义对于真实世界的科学实践是不真诚的。
为了阐明科学实践和拯救规则性的现象,我们必须要对因果机制给予承诺,因果机制可以从数据中被发现,但是它不能通过人类的知觉系统或实验设备而直接显现出来。另外,健壮模式的确定与现象之间不可能总是是一一对应的的关系,这也为多元主义留有余地。一般来说,多元主义的本体论承诺显然与实在论所坚持的科学理论的唯一性是不相符的,后者相信存在一个简单的基础本体位于所有的感性现象之下。但是我们需要考虑到"1)现象虽然由数据推出,但是其具备局部的(partially)自治性,2)在一种语境下相关的显著性模式,与其他语境下的显著模式也具有局部的自治性。"所以说,健壮模式的多元性对应于本体论的多元性。