大数据中的因果关系及其哲学内涵

数据观  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

  Causality in Big Data and Its Philosophical Connotations

   作者简介 :王天思,哲学博士,上海大学社会科学学院哲学系教授。上海 200444

原发信息:《中国社会科学》(京)2016年第20165期 第55-42页

   内容提要 : 在大数据中,数据化使因果关系量化为变量之间的关系,在获得关系强度和正负性质的同时,丧失了原有的必然性和方向性。大数据的相关关系,进一步展开了因果概念的重新刻画:因果关系是对因素相互作用过程与其效应之间关联的描述;而相关关系所描述的则是因果派生关系。作为因果派生关系,相关关系根植于因果性;作为未进入相互作用过程凝固为因果关系的因素关系,相关关系提供了由因素创构结果的广阔空间,这正是数据物化的因果性根据;而作为因素分析,相关定量分析的因果派生依据则构成 数据分析 的因果基础。大数据中因果关系的厘清,晓示了其深层哲学内涵。因素关系的未来空间凸显创构认识论,因果派生关系的全数据定量分析呈现量的整体把握,而因果关系从描述到创构则彰显哲学以满足人的需要为最终目的。

   关 键 词 :大数据/相关关系/因果关系/数据物化

“大数据”(big data)概念最早出现于《科学》杂志刊载的《大数据的处理程序》(1998)一文,此后《自然》杂志于2008年9月出版“大数据”专刊,短短十数年,“大数据”浪潮以人们难以想象的速度和让人始料未及的方式袭来。大数据一方面对传统的因果关系理论提出了挑战,另一方面又给因果概念的进一步展开提供了更高层次的整体观照。作为一种信息存在方式,大数据中因果关系和相关关系问题的错综交织,成为当前需要面对和思考的哲学课题。

   一、相关关系的因果性根基

关于大数据的看法,最引人注目的观点无疑是强调要注重相关关系而忽略因果关系,甚至某种程度上认为相关关系可以取代因果关系。

(一)因果性和相关性的关系问题

  当人们正掂量“依赖模型的实在论”①还有多少实在感时,有人基于大数据,从“模型都是错的,只是有些有用”,②推出了理论终结的结论。30年前基于统计模型得到的模型观,今天在大数据时代被赋予了新的含义:模型的过时,意味着“理论的终结”。2008年,美国《连线》杂志主编克里斯·安德森(Chris Anderson)以《理论的终结》为题发表论文,认为“有了足够的数据,数字会自己说话”,因而“相关关系足够了”。“相关关系取代因果关系,而科学甚至可以没有连贯一致的模型、统一的理论,或者实际上可以完全没有任何机制性解释而发展。”③一些被看作是从大数据推出,因而影响广泛的观点认为,“ 大数据时代 最惊心动魄的挑战,就是社会将需要从对因果关系的某种痴迷中蜕出,而代之以简单的相关关系。在大数据基础上建立起来的模型没有关于‘为什么’的理解,只有‘是什么’。大数据是关于‘是什么’而不是‘为什么’的”。这种观点甚至断言,“确认因果机制是一种自诩得意的幻象,大数据推翻了这个假象。我们又一次陷入一个历史绝境:在这里‘上帝死了’。”④这些现在比较流行的观点,既涉及大数据时代的重要观念转变,同时也与因果关系的认识迷雾密切相关,而且往往两方面相互交织。迷雾出自因果关系的传统理解,而重要识见则源于信息时代认识的深化。

因果关系是人类理性行为与活动的基本依据,人类理性本身不可能否定因果关系,但大数据所凸显的相关关系,的确从实践层面实质性地推进了对传统因果概念的深入反思。随着思考的深入,重重迷雾中的问题所在日渐明确:“大数据中一个耳熟能详的说法是:大数据长于分析相关关系,而非因果关系。但这可能是一个伪命题。如何从相关关系中推断出因果关系,才是大数据真正问题所在。”⑤目前亟待探索和解决的,正是有关大数据的这一问题。而这一问题的解决,还在于因果性和相关性问题的澄清。

对于因果关系来说,物的数据化过程意味着特殊的遭遇。因果关系的这种遭际,无疑是大数据的发展带来的,但问题的根源却还在因果观念本身的发展困境。由于“本原”的辉映,古希腊哲人认为智慧是关于原因的科学,因而关于因果观念,最先关注的主要是原因而不是因果之间的内在关联。无论亚里士多德的“四因说”还是东方的“因明学”,都是主要关注原因的典型形态。休谟第一个认识到,要给原因下一个完备的定义,必须呈现其与结果的联系,但他发现要做到这一点极为困难:“关于这一联系的观念,当我们努力去构想它时,甚至连我们究竟想要知道它的什么内容,都没有一个哪怕是模糊的意识。”⑥因此在其经验研究进路中,休谟只能建立起原因和结果的时序关联。康德试图通过先验进路探索这一问题,他把因果观念从“自然的”转向“理知的”,⑦但因果间内在关联的先验解决,只是把因果问题推给了先验问题。休谟因果观念研究的经验进路,在经验科学中导向了因果关系的概率研究;而康德的先验进路则通过无所不在的因果假设,晓示着自己不可或缺的逻辑地位。由于因果观念的康德理解封存于先验,在穆勒之后因果关系研究的发展中,出现了因果关系科学研究和哲学研究的明显分化。

  从穆勒开始,作为归纳的基础假设,因果观念逐渐纳入逻辑研究,后经罗素、赖辛巴赫和卡尔纳普等,将因果关系的研究由必然性退离至或然性。由于作为客观世界本身的特性,或然性规定构成不可克服的内在逻辑矛盾,这种研究进路到波普那儿走向主体“大胆的猜测”。与逻辑学研究相应,因果观念研究的另一致思方向则是统计物理学、统计学、计量经济学、生物统计学和心理测验学等学科中的量化研究进路。在因果关系的量化研究进路中,高尔顿的线性回归模型意味着从严格意义上的“物理模型”转向“统计模型”;皮尔逊的“相关系数”、凯恩斯的“归纳相关”及基于 预测 的“格兰杰因果关系”,则使相关关系研究在经验科学中占主导地位。而当这种进路深入到基础科学特别是量子理论时,因果性研究则遇到了量化把握所无力应对的根本挑战和困难。如果说因果观念的定性研究困在了经验和先验之间,那么,因果关系的定量研究则惑在因果关系和相关关系之间。

因果关系研究的量化,必定走向主要把握相关关系。在大数据中,物数据化就意味着因果关系的数据化。在因果关系的数据化过程中,一方面由于量化获得了量的关系强度和正负性质;另一方面由于量化丧失了原有的必然性和方向性。因此,量化后的因果关系蜕变为变量之间的相关关系,大数据中物数据化的过程,同时是因果关系量化为相关关系的过程。正因为如此,物数据化的结果,一方面有利于因果关系的定量把握;另一方面又不利于因果观念的传统定性理解。也正因为如此,数据化基础上的因果推断就变得越来越重要。而因果推断重要性日增,本身就表明,不管对因果性持什么态度,客观上都不可能否定因果关系。

因果关系不可能被否定,而大数据时代又似乎要以相关关系取代因果关系,那么,问题只能在传统因果观念中。在哲学上,传统因果概念备受质疑;在现代科学尤其在量子理论中,已经导向因果概念的重新刻画;而大数据所涉及的相关性和因果性之间的关系问题,则使重新刻画的因果概念进一步展开并系统生效。

(二)因果关系是对因素相互作用过程与其效应之间联系的描述

20世纪30—50年代,对于因果性问题来说,是灾难性的30年。因果论遭遇的这种灾难,无疑主要是由量子理论带来的,但量子力学本身并不否定因果性,而只是要求对传统因果概念进行改造。重新刻画因果概念,既是现代科学发展的要求,也是克服传统因果概念内在逻辑矛盾的需要。关于因果概念研究的这种困境,集中体现于两个关键问题:一是因果联系是必然的还是或然的;二是因果联系是前后相继的还是同时的。

因果联系的必然性和或然性问题,涉及因果规定的合理性。在休谟的观念中,“绝对不可能”在定义“原因”时,可以不在其涵义中包含原因与其结果之间所具有的那种“必然性联系”。⑧在康德作为先天形式的因果概念中也是如此:“原因的概念,它陈述的是在某种前提条件下一个结果的必然性。”的确,在哲学中,我们必须认为“一个原因的概念就带有必然性的特征”,⑨否则我们就不能理解事物过程的确定性一面。而在科学领域情况则很不相同,不仅统计学和计量经济学,量子力学也必定使传统因果观不得不接受原因和结果之间具有或然联系的观点。然而,如果原因和结果之间的联系是或然的,那么世界就毫无疑问是变幻莫测的,事物过程就不会有确定性环节,从而也就很难为人类理性所把握。但是,如果我们不接受原因和结果之间或然联系的观点,传统因果概念就不能容纳任何性质的统计理论,更不能描述量子现象。

而因果时序问题,则涉及传统因果概念的内在逻辑矛盾。关于因果时序,向来存在“前因后果”说与“因果同时”说之争。在量子理论创立之后,又出现了危及因果性本身的“因果时序颠倒”说。因果相继的观念几乎与因果观念同时并存,早在休谟关于因果观念的考察中,就把“前因后果”视为当然。在康德那里,作为先天形式的因果观念就先验地具有前后相继的性质。而在因果关系的量化研究中,由于因果关系量化为变量之间的关系,“自变量”和“因变量”的概念本身就意味着以前后相继为前提性预设。在传统因果概念中,前因后果说和因果同时说都具有其合理性,但二者又构成传统因果概念的内在逻辑矛盾。“前因后果”说认为,原因的“始发性”和结果的“后继性”使因果联系具有时间上的先后顺序性。但“因果同时”说却认为,“前因后果”说在理论上具有不可克服的困难。因为它必然隐含着“前因”阶段存在无果之因的结论。这既不合乎辩证法,也与因果关系的基本规定相矛盾。要避免这些内在逻辑矛盾,就必须重新刻画因果概念。只有重新刻画因果概念,才能在确保因果关系必然性联系的同时,既使因果关系具有时间上的持续性,又使事物过程的某些环节具有或然性的一面。

传统因果概念的根本缺陷,就在于把原因等同于某种原子式的存在,而没有把它看作对事物相互作用过程的描述。把因果概念理解为原子式的现象产生另一个原子式的现象,源自对因果概念的日常或经典力学理解。只有把因果概念的规定落实到事物的相互作用上,才可能有与当代科学发展相适应的因果概念规定。如果我们把参与相互作用过程、构成一定原因的事物称为“因素”,即构成原因的要素,那么,传统因果观某种类似原子而不是一个相互作用过程的“原因”,实际上只是“因素相互作用过程”中的因素,而不是作为因素相互作用过程意义上的原因,不过常常是主要因素罢了。因素关系之所以不同于一般意义上的事物关系,关键就在于它与特定的结果联系在一起,而这种结果不仅可以是既存的,也可以是潜在的。而原因和因素的根本区别则在于:原因由因素构成,但原因不仅包括因素本身,更重要的是因素的相互作用过程。正是在这个意义上,原因是对因素相互作用过程的描述。

把原因看作对因素相互作用过程的描述,就为进一步刻画“结果”概念创造了条件。相互作用都伴随着相应的效应;原因作为因素的相互作用过程,每一瞬间也同时伴随着这种相互作用所产生的效应。作为对因素相互作用产物的描述,这种效应自然是最为直接的结果,即因素相互作用过程的“瞬时结果”。这种瞬时结果与我们通常所谓“结果”并不完全是一回事。作为日常概念的“结果”,往往指的是这些效应的痕迹累积而成的宏观事物或现象,甚至指的是整个因素相互作用过程的产物。作为整个因素相互作用过程的结果,自然不是指某种瞬间状态,而是一种轨迹式的连续状态或事物系统。

效应和结果是两个既密切相关又不完全相等同的概念。在英文中,效应和结果用同一个词“effect”表达,这增加了对词义理解的复杂性。事实上,作为严格刻画的因果概念,结果只能是作为瞬时结果的效应。某一原因消失,即某些因素的相互作用停止,效应便同时终止,但其痕迹却可以依然存在。因此结果可以定义为:因素相互作用的效应;更确切地说是对因素相互作用效应的描述。因素和结果间的联系与原因和结果间的联系,描述的是客观过程中处于两个不同发展阶段的事物联系形式。其中,因果关系描述的是因素相互作用过程与其效应之间的联系。

通过深化因果观念的理解,重新刻画的因果概念解决了传统因果观存在的上述两大问题。如果说,关于因果联系的逻辑方面的理论混乱,是由于把因素看作原因,那么,关于因果联系时序方面的上述纷争,则主要是由于把因素相互作用所产生的效应,与这些效应的痕迹累积而成的结果混为一谈。当我们把原因看作对因素相互作用过程的描述,从而将原因和因素区分开来研究,就会看到,原因和结果是因素相互作用过程的两个不同方面,因果联系的必然性无可置疑,与原因和结果间的关系不同,因素(包括潜在的)与结果间的联系从根本上说是或然的,事物过程必然性和或然性的对立在因素相互作用过程中获得了统一的理解。因果描述所涉及的联系的过程性,实际上是因素相互作用的过程性;而原因所描述的能动性,则源于因素活动的始发性。⑩在原因是因素相互作用过程的描述中,可以看到“前因后果”的观念出于两方面误解:一是把主要因素当作原因,因而可以与其参与相互作用构成的结果有时间先后关系;二是把因素相互作用的效应累积的产物当作结果,这也使结果可以在时间上后于原因。重新刻画的因果概念,不仅能使传统因果观的上述问题得以澄清,而且意味着因果关系和相关关系之间一个同样清晰的关系刻画。

(三)相关关系是对因果派生关系的描述

从定性研究的角度看,相关关系是一个宽泛的概念,因为从直接相关到间接相关,呈现的是一个无限蔓延的分布。世界上任何两个事物都处于相互联系之中,都具有相关性。因而从广义上说,相关关系可以把任何事物视为相互联系,因为关系本身就是对相关性的描述,这里显然存在有待澄清的理论问题。

关于相关关系和因果关系,自17世纪以来就有一个影响广泛的观念:“相关关系并不意味着因果关系。”(11)20世纪后,出现了将因果关系归结为相关关系的努力,认为“因果关系不是别的,只是一类相关关系”。(12)将因果关系归结为相关关系,显然将因果关系的理解泛化了,结果是因果关系弥散于相关关系。但是,这种观点是第一次内在沟通因果关系和相关关系的思考。这种思考,后来在赖辛巴赫那儿得到另一方向的强化,他认为“不存在没有因果关系的相关关系”,(13)这则是出于对相关关系因果关联的确信。这种理解更接近二者关系的实质,但由于相关关系过于宽泛,因而不仅涉及相关关系的规定问题,而且涉及相应的哲学基本问题。而关于这一问题,统计学和计量经济学等学科中的认识更为具体:“相关系数度量的是相互联系,但相互关系并不等于因果关系。”(14)“相关关系并不能证明因果关系。”(15)所有这些观点都聚焦于一个环节:“建立有意义的相关关系是一回事,而实现从相关关系到因果属性的飞跃则是另一回事。”(16)当我们重新刻画因果概念,就可以看到这一问题的关键所在。

重新刻画的因果概念为相关关系的深入理解提供了理论根据,为这些问题的澄清创造了条件。在重新刻画的因果概念中,因素和原因的区分打开了通向相关关系的窗口。当因素未进入相互作用过程时,我们可以看到一种特殊的关系,那就是与潜在结果相联系的因素关系。这种关系不是因果关系,但相对于潜在结果,却构成一种与因果关系密切相连的相关关系。这种相关关系的生成,表现为一种因果派生关系。这不仅表明,因素之间的相关关系并不是一种与因果关系无关、完全不同的另一种关系,而且可以看到,因果结构可以派生出更多的相关关系。因果派生关系除了因素之间,还有结果之间以及因素和结果之间的关系等,这就可以看到由不同的机制可以派生出各种不同类型的相关关系。

作为因素相互作用过程与其结果之间的关系,因果关系是由相互作用过程凝固了的因素关系,而在进入相互作用之前和因素相互作用过程之中,因素之间、结果之间以及因素和结果之间则构成了各种类型有特殊意义的关系,这些都是相关关系。正是由此,可以得到关于因果关系和相关关系的清晰理解:因果关系是为因素相互作用所确定的关系,由于因果关系事实上是一个过程的两个方面,所以不构成相关关系。而相关关系则是因果关系的派生关系,包括因素之间、结果之间以及因素和结果之间的关系等。虽然因果关系和相关关系有重要区别,但从重新刻画的因果概念,可以清楚地看到相关关系的因果性根基。作为因果派生关系,相关关系植根于因果关系。

正是在这个意义上,大数据不仅不是因果性观念的沦陷之地,反倒是进一步充分展开重新刻画的因果概念的最好场所。正是大数据带来了物数据化和数据物化的对称发展,而数据物化既是实践又是认识,它意味着一种新的因果性根据。

1 2 3 4 显示全文

责任编辑:陈近梅

随意打赏

数据的因果关系什么是哲学因果关系
提交建议
微信扫一扫,分享给好友吧。