1、 引言
过去,我们认为科学实验产生数据,其作为客观事实为科学理论的正确性提供基础。但是,数据的作用远不止如此。数据的实证主义框架往往低估了数据的作用和价值。这就如同我们谈论一个城市的印象,只是关心建筑或地区性的事物,而轻视或忽略了构造和支撑它们的砖块和泥浆,这通常就是我们对于数据概念理解。另外,如果只是将数据作为知识大厦的基质或元素,那就好比,仅仅将砖块和泥浆视为构造城市过程中简单的堆砌,而遗漏了在逻辑、科学、哲学以及社会建构层面的理解。尽管我们通过生产和分析数据创造了巨大的资源和价值,但是有关数据概念性的讨论和关注常常被忽视。反而,我们能够找到大量研究信息和知识哲学的文章和书籍。这一状况普遍存在,如在计算机科学,研究的就是不同类型数据的逻辑结构,这就导致数据的研究局限在技术、生产和分析的意义上。
在当前大数据时代背景下,数据俨然成为现代世界的关键性资源。如何探索数据的存在意义,衡量数据的价值,需要在更为概念化的、哲学层面来考虑数据的本质和认识论意义。
1.1 定义数据。
词源学上,数据来源于拉丁文 dare,意指给予(to given)。数据(data)是单数 datum 的复数形式,主要在科学研究领域使用。在这个意义上,数据是通过测量或记录等不同方式从现象中抽象出来的原始元素。但是,在一般用法上,数据一般并不被视为复数,而是跟信息(information)一词相像的不可数名词。
在《辞海》中,数据被释义为:"电子计算机加工处理的对象。早期的计算机主要用于科学计算,故加工的对象主要是表示数值的数字。现代计算机的应用越来越广,能加工处理的对象包括数字、文字、字母、符号、文件、图像等。"但是,这样的定义还是缺乏对于数据最基本的哲学阐释。首先,我们需要在数据和其他相近的概念做出清晰的区分,这些概念包括"数字"、"信息"、"事实"、"知识"等。第一,拿"数字"(number)相比。国内有学者在挖掘数据的概念时过多诉诸于"数"的本体论,"试图从'数'的本体论思考探索出数据的本体论进路",而如此关于"数"的本体论梳理并没有真正的谈及数据的本体含义。因为很显然,"数"与"数据"虽然中文只一字之差,但从英文看完全是两个不同的概念,并且单纯的数字(尤其指没有任何语境背景下的数字)并不能成为数据。物理常数之所以是数据,是因为科学背景下,常数往往具备特定的物理意义。比如说普朗克常量 ,很明显它是有物理含义的,其不同于数学常量 e=2.71828182845904523536×××。
第二,拿"信息"相比。万维网发明者提姆·伯纳斯-李(Tim Berners-Lee)曾指出:"数据不是信息,信息不是知识,知识不是理解,理解不是智慧".这是将数据作为"原材料"较为经典的说法,如下图所示的金子塔图形,数据代表着基础,越往金字塔顶意味着越高的层次,而"科学的工作就是帮助人们将数据变成信息并一直到达顶端。"数据强调的是客观记录,信息强调的是对客观事实的解释和含义。经过解释的数据,才成为信息。数据是信息的载体(表现形式);信息是数据的含义或解释。但是,数据经过处理之后仍然是数据,处理的目的仅仅是为了便于解释。与数据、信息并提的一个概念是,知识,"它是指反映各种事物的信息进入人们的大脑之后,对神经细胞产生作用后留下的痕迹。"这一时髦的物理主义观点,十分符合我们的直观,也在科学范围内被普遍接受。
所以,我们可以看出数据与信息在这样一种金字塔模型中的位置。显然,数据先于信息,信息先于知识,知识先于理解和智慧。"金字塔的每一层通过一个升华的过程所区分开来(包括还原、抽象、分析处理、解释和应用等),它们通过解释世界的关系和真理而添加了意义和价值。"实际上,在科学领域内数据与信息通常不加区分,似乎两者就是一个意思。有人在计算机兴起初期提议"数据科学"的说法,而非现在流行的"计算机科学",因其就是一门研究数据的科学。
再者,信息论作为信息科学前身,着重研究信息的运动规律及其应用方法,把信息作为一种物理现象来处理。"信息论似乎仅对组成那些符号、信号或消息的未经解释的数据的细节和频率水平感兴趣,而对于数据的意义或者说信息本身并不涉及。所以说,数学的数据通信理论是一种比信息论更加适合的说法。"但是,信息也与数据有比较明显差异。信息的传递需要物质载体,获取和传递都需要消耗能量;信息可以被感知,可以存储、传递、共享、再生和增殖。数据是信息的载体和具体表现形式,信息是不随着数据形式的变化而变化、数据有文字、数字、图形、声音等表现形式。信息是现实世界事物的存在方式或运动状态的反应。所以,信息是一种已经被加工为特定形式的数据。
第三,拿"事实"相比。计算机科学家将数据定义为只存在于计算机,并以字节(Byte)为计量单位。数据是存在于计算机系统中的东西;"信息是自然界、人类社会及人类思维活动中存在和发生的现象;知识是人们在实践中所获得的认识和经验。数据可以作为信息和知识的符号表示或载体,但数据本身并不是信息或知识。"在计算机科学领域,数据常被定义为一个已知的事实,它能够被记录并具有固定的含义,所以"数据是原始、孤立的事实,从中我们可以得到需要的信息。数据是独特的信息片段,通常需要按特定的方法将其转换为某种格式。它们用二进制表示,是存储在计算机中的逻辑实体",比如对于一个公司,数据可以是 Josh Ye 职员的社保号 2131430,可以是该公司合作伙伴的地址或电话。
当然,仔细分析,说数据是一种事实不外乎是常识的表述。准确地讲,数据应该是事实的表征,是元语言,用以描述事实。
1.2 数据本体论的三种进路。
1.2.1 数据本体论的经验主义进路。
自莱布尼兹的时代起,人们一直在对计算机进行思考。在图灵机之前,一般认为,对于计算机器来说,机器、程序和数据这三种范畴是完全分离的。机器是一种物理对象,今天我们把它称为硬件:程序是做计算的方案,也许体现在穿孔卡片或线路连接板上的缆线连接上;而数据则是数值输入输出。图灵机表明,这三种范畴的相互分离是一种错觉。图灵机开始被看成是一种拥有机器部件---硬件---的机器。它在通用机纸袋上的码数则起到了程序的作用,他为通用机详细指明了执行计算所需要的指令。最后,通用机在一步步的运转中的把机器码的数字仅仅看成需要进一步处理的数据。这三个概念之间的流动性对于现在的计算机实践来说是非常基本的,用一种现代的编程语言所写成的程序对于处理它以使其指令能够得到执行的解释程序或编译程序来说就是数据。事实上,图灵的通用机本身就可以看成一个解释程序,我们可以将它看成是对某些数据进行操作的指令;同时,对于解释程序来说,程序本身又是数据。
图灵的分析为理解古代的计算技术提供了一种独到而深刻的角度。计算的概念原来远不止算术和代数运算,其更多的可以指一种处理事务的规则。同时,这种眼光预见到了原则上能够计算任何可计算的东西的通用机。"通用图灵机的例子已经成了程序设计的实例,通用机器则是解释程序的第一个例子。通用机还为存储程序计算机提供了一个模型。纸带上的编码扮演了存储程序的角色,机器在程序和数据之间就没有本质上的区分。"第一代通用计算机是图灵理想化的通用机的实现,其中至关重要的一点,它拥有一个巨大的存储器,对应于图灵机的无限长的纸带。由此,指令和数据可以共存;指令和数据之间这种不固定的界限意味着,我们可以设计出把其他程序当成数据的程序。早期的程序员主要就是利用这种自由度来设计出能够更改自身的程序。"在人们普遍使用操作系统和不同等级的程序语言的今天,更为复杂的应用已经成为可能。对于一个操作系统而言,它所启动的程序就是供它操作的数据,只要每一个程序都有它自身的存储部分,而且能够记录所要完成的每一项任务的进程。编译程序把今天常用的某种语言写成的程序翻译成可以被计算机直接执行的指令:对于编译程序而言,这些程序就是数据。"自从高级汇编语言的出现,大量繁杂的工作可以通过编译器来完成。编译器是连接机器语言和人类语言的桥梁,我们可以简单的认为它就是一个翻译,其工作就是把我们的日常语言翻译成机器能够处理的语言。传统计算机器的功能主要就是体现在数值计算方面,所以机器只需要简单的接受和处理指令即可(加减乘除或其他算术运算)。但是,正如图灵机所描绘的理想机器,计算机能够完成的工作可远远不止这些,也是计算机科学的迷人之处。"我们可以无限制地在基础概念上进行不同层次的抽象,能将日常生活中常见的对象和过程在虚拟的数字空间中模拟出来。直到这些模拟足够描绘现实世界的时候,它们所存在的世界就被称为虚拟世界。"比如今天的虚拟人物、虚拟游戏、虚拟社区和虚拟货币等等。
实际上,不同抽象机制的构建也使得计算机中的数据类型与结构越来越复杂,同时也加强了现代程序设计语言的描述能力,出现了很多新的概念,如多态性、数据抽象、类、模式(schema)和继承等。
数据被视为信息的载体,是可以被计算机存储并加工处理的描述客观事物的信息符号的总称。所有能被输入计算机中,且能被计算机处理的符号的集合,它是计算机程序加工处理的对象。客观事物包括数值、字符、声音、图形等,它们本身并不是数据,只有通过编码变成被计算机识别、存储和处理的符号形式后才是数据。在这个意义上,数据就是客观事物的表征与指示,是描述客观事物的符号,是计算机中可以操作的对象,是能被计算机识别,并输入给计算机处理的符号集合。数据不仅仅包括整型、实型等数值类型,还包括字符及声音、图像、视频等非数值类型。也就是说,"数据其实就是符号,而且这些符号必须具备两个前提:1)可以输入到计算机中;2)能被计算机程序处理。对于整型、实型等数值类型,可以进行数值计算,而对于字符数据类型,就需要进行非数值的处理。
而声音、图像、视频等其实是可以通过编码的手段变成字符数据来处理。"但是,显然数据的概念可以更为宽泛,我们可以说以书本组成的图书室为资料室(dataroom),这里说的资料并不是以字节为单位,也不是储存在计算机中。数据以及其多样的形式存在,且拥有某种含义,比如某篇论文中的数据或文本,存在某人头脑中的事实。
由朱扬勇等计算机科学家所著的《数据学》就是探索数据学的由来、基本概念和基本原理的代表作。他们认为,数据在物理上以字节(Byte)作为其大小的计量单位,一个字节为一个数据单位,数据物理存在与计算机系统中。数据的概念包括数据原子、数据对象、数据集、数据、元数据、数据工具,由此定义数据(data):"是数据原子、数据项、数据对象和数据集的统称,可以用一个数据表示一个数据原子、一个数据项、一个数据对象或者一个数据集。计算机系统中,数据是可度量的、可处理的、可观测的,并且占有空间,具有物理属性,所以数据是存在的。"他们还提出数据自然界的概念,认为:"人类在认识由宇宙和生命组成的真实自然界(real nature)的过程中,产生的成果存储在计算机系统中,在不知不觉中创造了一个由计算机中的数据构成的数据自然界(data nature),数据自然界中的数据以自然方式增长而不为人类所控制,数据自然界具有未知性、多样性和复杂性的特点。"这里,数据自然界的说法十分类似于在虚拟哲学中所说的虚拟实在论,即认为计算机中形成的数据世界不同于现实的物理世界,就是有别于物理或自然实在的虚拟实在。需要补充的是,虚拟技术诞生伊始着重与模拟现实世界的事物状态和功能属性。原理上,虚拟世界中数据构成的模型都映射了经验世界的状态。
但随着虚拟世界的复杂化,虚拟实在的本体论就呈现出与经验主义框架完全不同的图景。
数据本体路的经验主义在现今的科学技术发展历程中被广泛接受,即数据是实在世界的表征。当然,经验主义的本体论预设也是很受欢迎的,我们发现,大部分的数据都可以通过变换载体的方式被计算机存储和处理。
1.2.2 数据本体论的基础主义进路。
相对于对数据经验主义的认识,我们也可以通过还原的方式来思考数据的本体论基础,也就是回答"数据是什么?"的问题。这就是数据本体论的基础主义进路的出发点。当代哲学家弗洛里迪(Floridi. L)给出一种独具代表性的思路。
要回答数据的基本性质什么,我们可以先回答消除或失去数据是什么意思。比如一张白纸上写满我们看不懂的语言,即使如此我们也会认为这张纸是充满数据的。
现在,将其中的文字一一删除直到剩下一纸空白,但还是没有完全失去数据。因为,一张白纸的显现仍然是一个数据(datum),只要这张白纸与其他纸张之间存在差别。实际上,只有完全消除所有可能的差异,数据才能够在真正意义上被完全消除。由此,他给出单个数据(datum)最为基本的定义是:"两个符号之间一致性(uniformity)的缺失",也就是说数据可以被还原为两个符号之间的差异。
在对信息进行苏格拉底式的思考中,弗洛里迪为避免很多哲学家对于基础概念本体论的基础主义倾向,转而关注信息的关旨性(aboutness)和诠释学通信的自身指示(self-referential)循环,提倡一种认识论导向的、中心化的语义信息解释。即使我们可以泛化的谈论信息的概念,但总还是需要一个提纲挈领的解释,各类含义的信息使用需要围绕一个具有理论优先性的核心概念,它对其他概念产生影响并且相互关联。正是由于这种形而上学的追问,使得弗洛里迪提出数据的概念要比信息更为基本。
由此,弗洛里迪将信息的语义理解划分为 1)作为内容的语义信息的广义定义,和 2)以事实为导向的语义信息的狭义定义。语义信息的广义定义建立我们关于通信现象的认识,后者往往指示客观的或外在于心灵的语义内容。它们被一连串的代码和符号所表示,并被嵌入至不同类型的物理操作之中。比如解释字符串"01100001"对应于字母"a".计算机编程和输入数据可以在不同的抽象层次来完成,但是指令和数据必须被转换成机器可阅读的代码。我们操作的层次将决定表示的适当概念,这需要被恰当排列的、有意义的数据,并且这些信息一定要对某人有意义。借助大量的二进制数据的字符串以及综合、连续的标准可以将这样的数据有所指称(如 ASCII 码),那么计算机就可以向人类观察者输出有意义的信息了。在这里,虽然信息是被编码和传输的,但是信息本身也将独立于它的编码或传输而存在。一般来讲,语义信息的广义定义就是数据+意义。也就是(1) "假设 σ 被理解为一个客观语义内容的信息实例,当且仅当;(2) 对于 n≥1,σ 由 n 个数据所组成;(3) 数据是指在句法上恰当排列的(well-formed);(4) 合式的数据是有意义的。"信息离不开数据,在最为简单的情况下,信息可以由一个数据所组成。只要存在形成数据的差异。因为信息依赖于在句法上恰当排列的数据,并且数据也依赖于各种物理上可实现的差异,所以,信息能够与其支撑物脱离开来。一张白纸对于印在上面的文字并非必要的背景条件,白纸本身与不同符号之间的差异一起,构成了数据本身。而信息则对应符号之间的语义内容。广义的信息定义赞同这样的论题:一个数据就是一个关系实体。所以,任何数据都具有相关性。在理解作为关系实体的数据,它是具有约束启示,它能够被系统作为一个恰当的问题输入而加以利用,同时这一系统又可以正确地将该问题语义化从而产生出作为输出结果的信息。换句话说,作为内容的信息也可以描述为数据+问题。在本体论中性角度,没有数据表征就没有信息。简单的看,弗洛里迪的信息哲学坚持外延论的立场,以及信息语义学的观点。"语义学观点"就是用数据空间来定义信息的观点,语义信息就是合乎结构的、有意义和真值的数据。
从这个意义出发衍生出唯物论的观点,即脱离物质的信息是不可能存在的,因为在这里表征就是物理实现,也就是说,没有物理实现就没有信息。在物理计算等计算机科学领域内,这样的预设是肯定的,因为必须要考虑到数据载体的物理属性和限制。在人工智能和认知科学的物理符号系统假说背景下,也需要这一本体论预设。当然,如果是基于贝克莱式的实体、属性精神化的形而上学倾向,或者在物质和广延的宇宙具有某种精神的或非广延基质作为本体论基础哲学假设下(如柏拉图、莱布尼兹),我们也不一定需要坚持每一个差异状态的出现最终都必然需要某种数据表征的物理实现,这一信息的唯物主义解释,比如单个数据的相关像就可以是单子。事实上,这一传统的实在论争论可以根据可能的解释而被重构。
弗洛里迪认为,世界作为信息是数据的某种智慧表达,自然智能(如人和动物)感受的是信息,因为这就是世界;而人工智能处理数据,知识数据被自然智能感受为信息。所以,他认为人工智能是信息哲学不成熟的范式。因此,信息与数据是相关的。目前,数据作为可解释但未被解释的、可区分的差异,表征了人工智能语义学的上限,但却表征了自然智能语义学的下限,后者在一般情况下只处理信息。巧妙的界面分层设计正是利用这一临界状态使得人机互动成为可能。
这一规范表明当前的人工智能所取得的成就被句法资源所限制,而自然智能则受限于语义资源。将信息的立场理解为一种约束或限制,我们只需要考虑任何一种非朴素的认识论。弗洛里迪认为"康德的'本体'与'现象'的二分关系可以解释成数据和信息的二分关系,加之环境或客观世界的经验内容作为临界状态,这时未经解释的数据流便有规律的、源源不断的坍塌为信息流。"也就是说,数据本身无关乎意义,而是主体通过对"数据"的认识来获得语义信息,而信息则是数据的不同表象。
不得不承认,弗洛里迪的数据概念解读是与常识相悖的。在本体论意义上,他认为数据的差异性是人类认识的前提,也是以信息为基础的人工智能研究不可逾越的上限。这里,我们要将其与一般的经验主义划清界限,后者认为数据的出现一定具备经验意义。所以,当前我们对于人工智能的研究,不管是基于"规则系统"的传统还是依靠统计学的机器学习,都是把数据作为基础操作对象。而弗洛里迪认为这些并非是"数据本体",而是信息,它们是经过加工和解释的。尽管弗洛里迪很明确地指出要与本质主义与还原论划清界限,声称自己的信息本体论是非还原的。但是很明显的,他企图为信息哲学研究提供一个坚实的形而上学基础,不可避免地代入强烈的还原论色彩。所以,弗洛里迪对于对数据本体论的"差异"认识不可避免地落入了基础主义框架之中。由此,我将这一数据本体论归于基础主义进路。
1.2.3 数据本体论的建构主义进路。
科学家经常肯定数据的独立性,试图将数据与语义背景、实验组织等区分开来。但是,也有人认为"数据作为客观的、中立的科学概念往往是虚构出来的,因为他们预设并认为数据脱离于它本身的起源、本质和历史,并且传达出这样一种认识,即数据是这个世界之外的、无差别的通用货币。"但是,数据从来都不可能是"原始的",数据总是依靠人们的倾向和价值观念而被构建出来。数据分析看似客观公正,但其实价值选择贯穿了从构建到解读的全过程。
数据一般被视为存在于那里的东西,它是关于实在的而非实在本身。确实,数据是一种抽象、一种人工物、一种工具产品,是存在的自然状态。但是,这种想法太过狭隘,要知道数据并不是贫瘠地参与分析,数据构造的可视化和信息图使得实在更为智能化。我们需要意识到,"数据已经如同能源一样,作为人类、社会和政治的核心来考虑。数据战争已经开始直接影响到人类的生存与死亡。"数据不仅仅是抽象和表征,它们是被构造的,并且它们的生产、分析和解释能够产生相应的结果。就如吉特曼和杰克森(Gitelman and Jackson)在《原始数据是矛盾修辞》一书中所言:"如果数据以某种方式服从于我们,那么我们也同样服从于数据。"数据从世界中所捕获,相应的作用于这个世界。数据不是也永远不会是中立的。相反的,我们应该这样理解数据:数据是根据使用者的需要而被框定(framed)、构成和认识的。
弗洛里迪从认识论的角度将数据解释为事实的集合(collection)。信息的角度看,数据就是信息;计算的角度看,数据是可以被电子化处理和传输的二进制元素的集合;而从差异性的角度看,数据是从其他数据中清晰的、可以理解的抽象元素。"首先,数据提供了进一步推理或构造经验证据的基础。第二,数据构成了可以被存储、处理和分析的表征信息,但数据并没有必要构成事实。第三,数据构成了计算的输入和输出,但必须被处理成事实和信息(比如,DVD 包含十亿节数据而不是相应的事实和信息)。"第四,数据是有意义的,因为它们抓住并预示着变化(比如点或字母),这样的变化倾向提供了可被解释的信号。如下所示,理解数据还可以从社会建构角度、物质性角度、意识形态承载角度、商品交易角度、构建公益角度等等。关键点是,数据不仅只是数据,在得到数据、分析数据和从数据中获得结论的过程中,数据的理解和使用一直在发生着变化。
但是,弗洛里迪的观点并不被广泛认同。我们应该如何考虑数据,如何测量它们,如何合适的表达数据的本质这些疑问。在反对者看来,数据并没有先于存在和它们的生成;它们并不是无中生有。数据通过测量、抽象和概括技巧而产生,这些技术与人们发明的标准相一致的形式和衡量方式(比如度量系统),它们被用来实现一项任务或将数据记录下来。它们作为认识论意义上的单位,能够使认识论有效的表征出来,并且可以使关于相同现象的数据以多种方式被测量和记录。
每一种方式都提供了分析和解释的差异化的数据集。数据产生的方式并不是不可改变的,它受到以下因素的影响:协议、流程、测量尺度、种类、标准设计、协商和争论,还有某些在混乱状况下产生的数据。
所以,数据如何在本体论上定义和限定并不是一个中性的、技术性过程,而是一个规范的、政策性的和伦理过程。但是,一旦固定下来,数据的本体论就会排除可变性。"虽然行动者、事物和过程具有多样性,但是数据模型的收敛和稳定的过程对于抵制和改编总是开放的,并且数据的矛盾性并不是简单的符合一个系统。另外,一旦数据产生,它们就可以以各种分类方式被存储、分离和拆分。"换句话说,数据并不独立于思想体系以及生产它们的基础性工具。这样的思想体系被哲学前提和信念所灌输而形成不同的实践方式。
我们不能只是看到数据的表面价值,从而在本质上将其视为中立的、客观的、先于分析的(pre-analytic)东西。事实上,数据受到技术上、经济学上、伦理上、时间上、空间上和哲学上的建构。数据并非独立于思想、工具、实践、背景和知识而存在,相反地,这些被用来生产、处理和分析数据。"对于数据的理解并不仅仅随着时间而进化,它随着观点的变化而变化。因此,数据并不是简单地表征了世界的实在;它们是关于世界的构造。"从这个角度来说,科学知识是被生产的,而不是纯粹的"被发现".数据是不同的,这使得被用来使用它们的软件、设备、文件和知识使用得以分开。"比如,如果数据被诸如传感器网络的工具而产生,解释这些数据需要对这些工具的了解,例如传感器基于什么条件下发现了什么,发现的频率是多少,以及校准的类型等等。"所以,不存在先于分析的、或作为客观独立元素的数据。如吉特曼和杰克森所言:"原始数据是一种矛盾修辞,数据总是已经被加工过的,不可能完全的'原始',数据需要被想象为本身去存在(to exist)或起作用。"数据是社会的,因其位于特定的语境中;同时也是物质的,因其都拥有一个形式(如比特、符号数字等),存储于纸张、磁带或硬盘等物质中。两者鲜活的塑造了数据的构成。比如大数据就是依赖于支撑它们不断延伸的离散的、政治化的和经济性话题,在数据库、电脑、服务器和网路中使得它们生产、处理、分享、分析和存储。因为数据的社会和物质本质,我们重塑了物质的、技术的、地理的、组织的社会世界,这样的环境下,我们也进入与数据一起符号化的关系。因此,数据可以被看作是关于实在的事物,但它们更应该同时被理解为实在的组合和实在的创造者。