1、23大数据分析中的相关性和因果关系刘东亮闫玥蓉摘要:“大数据分析不追求因果关系而只关注相关性”是一种颇为流行但似是而非的说法。实际上,大数据分析并非完全放弃对因果关系的追求,其所关注的相关性是对因果关系的逼近和靠拢,是在无法确定因果关系时的一种折中,这与法律上的因果关系在大多数情况下属于统计的因果关系(强相关)并行不悖。大数据分析的结果可以在法律程序中适用,但受制于数据质量、建模错误等因素,其可靠性有时比较薄弱,从而导致其适用范围存在限制。大数据在法律程序中的作用主要是预警和佐证,仅在少数情况下才可以直接据以作出法律决定。大数据技术具有两面性,在充分利用大数据带来的便利的同时,也需要在观念上破
2、除“大数据的神话”,特别是对大数据的伪相关性风险进行防范,避免可能的“大数据的悲剧”。关键词:大数据相关性法律上的因果关系伪相关性数字政府中图分类号:D90文献标识码:A文章编号:1004-9428(2023)02-0023-19大数据正在深刻改变社会生活以及我们观察、理解世界的方式。1利用大数据分析结果改进决策,不仅在商业领域得到应用(如各种各样的算法推荐系统),同时也在重塑法律的运作方式,如在疫情防控中广泛使用的“健康码”“一码通”等,即是政府运用大数据技术进行社会管理的鲜明例证。前不久,在引发社会关注的“獐子岛扇贝逃跑案”中,有关部门甚至使用到北斗导航系统,利用大数据分析比对涉案公司船只
3、的定位信息和采捕作业轨迹,以此作为行政处罚的相关证据。2 国务院关于加强数字政府建设的指导意见更是将作者简介:刘东亮,西安交通大学法学院教授;闫玥蓉,西安交通大学法学院硕博贯通制研究生。博士生张楚悦对本文所涉技术问题亦有贡献。1 参见英维克托 迈-舍恩伯格、肯尼思 库克耶:大数据时代,盛杨燕、周涛译,浙江人民出版社2013 年版,第 1 页。2 参见中国证监会行政处罚决定书(獐子岛集团股份有限公司、吴厚刚等 16 名责任人员),202029 号,发文日期:2020 年 6 月 15 日。另见獐子岛“扇贝逃跑”被戳穿!证监会卫星查案,新浪网 http:/ 年 11 月 20 日。主 题 研 讨2
4、4国家检察官学院学报2023 年第 2 期落实大数据战略提升到了推进国家治理体系和治理能力现代化的高度予以全面部署。3虽然大数据技术已经渗透到社会治理和法律领域,但还是有很多问题存疑。特别是,由于相关性并不等于因果关系,大数据分析强调的相关性与法律上的因果关系是否相抵牾?这一问题直接决定了大数据分析的结果能否在法律程序中适用及其适用的范围如何。也正因为该问题如此重要,或许可称之为“大数据时代的法律之问”。一、相关还是因果:大数据应用的前提问题有“大数据时代的预言家”之称的英国学者舍恩伯格(ViktorMayer-Schnberger)指出,在大数据时代,数据处理的理念有三大转变:(1)大数据的
5、模式是全样本分析,不依赖于随机采样;(2)允许混杂性,不追求精确性;(3)放弃对因果关系的追求,只需要关注相关性或相关关系。4这几乎是当下关于大数据的一种通说。众所周知,因果关系是法律实践中的重要问题。民事侵权行为和损害后果之间存在因果关系,才能要求相关主体承担赔偿责任。危害结果在客观上可归责为行为人的行为,即行为与危害结果之间存在引起与被引起的因果关系,才能对行为人科刑定罪。在行政法领域,行政处罚、行政赔偿等均需存在某种因果关系,才能够追究相关主体的行政法律责任。而相关关系并不等于因果关系。那么,接下来的问题是:大数据关注的相关关系和法律上的因果关系之间,究竟是一种什么样的关系?回答这一问题
6、,首先需要从哲学和科学上的因果律说起。(一)哲学和科学上的因果律“凡事皆有因果”的说法在很多宗教、哲学乃至日常伦理观念中都有反映。相信万事万物存在因果关系,这种倾向有其深层的进化心理学基础:我们生活在一个纷繁复杂而充满不确定性的世界,风险与野性总是在伺机而动。为了生存,人类要像丛林中的动物一样保持警觉。出于降低复杂性、掌控外部世界和自身命运的类本能需要,对事物间因果关系的理解与把握成为不确定世界的理性选择。5在哲学上,因果律常常被视为一种普遍的自然法则。从古希腊的德谟克利特到近现代的康德、黑格尔等历代著名哲学家,几乎都参与过对因果关系的讨论。6不过,大多数哲学家关于因果关系的理解都是建立在形而
7、上的基础之上,他们的因果观主要是一种信念,是近乎玄学性质的主观判断,对我们研究法律上的因果关系帮助不大。仅有个别哲学家如休谟所说的“因果之被人发现不是凭借于理性,乃是凭借于经验”,因果观念主要是一种“概然推断”,73 参见国发202214 号文。4 同前注1,第 27-67 页。5 心理学上称这种心理表征为“控制性思维”(controlled thinking)。参见美海斯蒂、道斯:不确定世界的理性选择:判断与决策心理学,谢晓非、李纾等译,人民邮电出版社 2013 年版,第 3 页。6 参见英罗素:西方哲学史(上卷),何兆武、李约瑟译,商务印书馆 1963 年版,第 98-99 页;维之:试论
8、因果关系的普遍性,社会科学动态2000 年第 7 期。7 参见英休谟:人性论(上册),关文运译,商务印书馆 1980 年版,第 85-173 页。25大数据分析中的相关性和因果关系这些认识对于我们理解法律上的因果关系有所裨益。在科学上,早期原子论者相信万物都是依照因果律发生的。德谟克利特明确否认任何事物可以由于机缘而发生。另一原子论者留基波曾经说:“没有什么是可以无端发生的,万物都是有理由的,而且都是必然的。”8这种观念逐渐演化为在科学史上长期占据支配地位的决定论(determinism)。决定论的思想基于因果律,可以说是因果律的强化版:世界上的任何事件,都有先已存在的充分原因。某原因决定了某
9、事件必然发生。凭借这种原因,我们可以充分解释或理解该事件,不需要再引入其他外在的因素。这种观念是自然教导给我们的常识,也是自然科学不断取得成功的关键。919 世纪初,决定论在有着“法国的牛顿”之称的天文学家、数学家拉普拉斯那里达到了高潮。他放言:只要有适当的参数,就可以计算出宇宙包括其中任何一个原子的过去和未来。10这一论断被称为“拉普拉斯之妖”(LaplacesDemon)。然而,到了 20 世纪 20 年代,海森堡等人提出的“不确定性原理”粉碎了“拉普拉斯之妖”的虚幻缥缈:不可能同时精确测量出一个粒子的位置和动量。20 世纪 30 年代初问世的“歌德尔不完备性定理”进一步昭示:不仅过去备受
10、推崇的公理化的演绎方法存在缺陷,就连作为自然科学之基础的确定性最高的数学本身也宣告了“确定性的丧失”。11无所不在的不确定性把世界隐藏在迷雾中。一度被人们深信不疑的因果律,渐显模糊。(二)经典统计学的相关性转向有史以来,不确定性问题一直困扰着人类。基于对各种随机现象的观察,人们很早就有了零散的概率和统计思想。也就是说,统计学的起源可以追溯到原始社会。但是,直到近代它才逐渐成为一门在实践中极为重要的学科。统计学的目的是从数据中获取信息以帮助人类作出决策。统计学的早期历史即以数据为中心。“统计学”(statistics)一词在 18 世纪中叶被创造出来时其词意为:由国家收集、处理和使用数据。12不
11、过,数据揭示的只是数量信息,数据本身并不具备表述因果关系的能力。并且,在统计学产生初期,由于当时尚缺乏一种能够描述和刻画复杂系统中因果关系的数学语言,因此,在经典统计学的奠基人高尔顿(FrancisGalton)和皮尔逊(KarlPearson)首次发现人口统计数据可以揭示一些科学问题的答案时,在这种关键性的时间节点上,统计学很遗憾地与因果关系失之交臂。138 同前注6,罗素书。9 参见陈波:思维魔方:让哲学家和数学家纠结的悖论,北京大学出版社 2014 年版,第 274 页。10 参见法拉普拉斯:关于概率的哲学随笔,龚光鲁、钱敏平译,高等教育出版社 2013 年版,第 4 页。11 参见美克
12、莱因:数学:确定性的丧失,李宏魁译,湖南科学技术出版社 2001 年版,第 4、269 页。12 See C.R.Rao,Statistics and Truth:Putting Chance to Work(2nd.Ed.),World Scientific Publishing Co.Pte.Ltd.,1997,p.45.13 参见美珀尔、麦肯齐:为什么:关于因果关系的新科学,江生、于华译,中信出版社 2019 年版,导言,第 XI、XXI 页。主 题 研 讨26国家检察官学院学报2023 年第 2 期皮尔逊认为,在高尔顿之前每个人都没有充分注意到相关性分析。在其为高尔顿所写的传记中,皮尔
13、逊指出:“高尔顿头脑中再三考虑着两个不同的问题,最终使他达到相关性的观念:A 不是 B 的唯一原因,但却对 B 的产生有作用;也许还有其他多种或几种原因在起作用,这些原因有的我们不了解,有的可能永远也不了解这种部分因果性的测量便是更大范畴的胚胎,即相关性分析的胚胎,这种分析方法不仅取代了我们许多人头脑中旧的因果关系范畴,而且深刻地影响到我们对宇宙的看法。因果性的观念开始崩解,尽管它曾为物理学家带来无限的利益。今后,有关宇宙的哲学观将是一种相关的变量系统的哲学观,接近但绝非达到完全的相关即绝对的因果性。”14在皮尔逊的眼中,相关性成为唯一值得关注的对象。因果关系被简化为仅仅是相关关系的一个特例。
14、15应当说,高尔顿和皮尔逊对相关性和因果性之关系的理解,的确是值得称道的。他们把相关性理解为部分因果性的测量或者是对因果性的接近。但不幸的是,由于这两位开山祖师对相关性的强调,此后,因果关系从传统主流统计学家的字典中被驱逐出去,他们不关心甚至抵制对因果关系的讨论。这部分是因为,单凭数据无法回答因果关系问题,因果分析要求研究者作出主观判断,有时还需要借助于想象力。16这无疑会影响到统计学自我标榜的客观性。自 1834 年 3 月 15 日伦敦统计学会成立伊始,客观性就被奉为统计学家的圣杯。该学会的创始章程规定,在任何情况下,数据都优先于观点和解释。数据是客观的;而观点是主观的。为客观性而奋斗,成
15、为统计学家的信仰和目标。17长期以来,统计学都信奉“相关性不等于因果关系”,并逐步形成了闭口不谈因果关系的局面。直到今天,这种以数据为中心和只关注相关性的观念仍然阴魂不散。有统计学家相信,数据本身已经包含了所有的科学智慧,只要对其稍加打磨,数据便会吐出那些智慧的珍珠。18的确,相关性不等于因果关系。公鸡打鸣与日出高度相关,但其不是日出的原因,公鸡打鸣不会导致太阳升起。然而,经典统计学由于因果的复杂性和难以发现而忌讳讨论因果关系,则是典型的讳疾忌医,并让自己陷入了因果蒙昧的黑暗。毕竟,因果关系思维是人类区别于其他物种进化出智能的关键。19追问“为什么”几乎已成为人类的一种心理本能。即使大数据时代
16、的作者舍恩伯格强调大数据对人类思维的变革是“需要放弃对因果关系的渴求,而仅需关注相关关系”,但他仍然同时承认:“人们习惯于从因果关系的视角来理解世界在大多数情况下,一旦我们完成了对大数据的相14 参见皮尔逊:高尔顿的生平、书信和工作,转引自加哈金:驯服偶然,刘钢译,商务印书馆 2015年版,第 274-275 页。15 同前注13,第 45 页。16 同前注13,第 5、57-58 页。17 同前注13,第 67 页。18 同前注13,第 65 页。19 人类大脑被认为是大自然为处理因果知识而设计出的最先进的工具。我们的大脑存储了海量的因果知识,在数据的辅助下,我们可以利用这些知识解决当代社会面临的最紧迫的问题。同前注13,导言,第 IX-X 页。27大数据分析中的相关性和因果关系关关系分析,而又不再满足于仅仅知道是什么时,我们就会继续向更深层次研究因果关系,找出背后的为什么。”20该书译者、大数据知名学者周涛教授也明确指出:“认为相关重于因果,是某些有代表性的大数据分析手段(如机器学习)里面内禀的实用主义的魅影,绝非大数据自身的诉求。从小处讲,要避免数据的独裁和错误的前提导致错误的结