1、超越算法的黑箱想象张博伦*摘 要:“算法”已经成为社会科学研究的重要对象。但在现在的主流研究中,算法被视作一个具有强大因果效力的黑箱。通过回顾算法黑箱产生的技术和组织原因,本文指出现在对算法的黑箱想象实际上阻碍了人们对算法的社会后果的深入研究,以打开黑箱为中心的算法监督也有诸多缺陷。在此基础上,本文认为算法系统本质上是一种组织现象。今后的研究应该将组织的视角有机纳入对算法的社会影响的研究,从而超越从源代码侧打开算法黑箱的想象。关键词:算法想象 批判算法研究 算法监督与治理 平台经济一导论:追寻社会生活中的算法互联网已经渗入人们生活的方方面面。科技公司所宣传的机器学习算法和人工智能已从幕后走向了
2、台前,被投资者、大众和监管机构认识。在这个背景下,算法也越来越成为社会科学研究的主题和批判对象。但关于算法的社会科学研究,特别是批判研究的论述中,存在两种有些矛盾的倾向。一方面,算法越来越成为一个具有无所不包解释力的概念;另一方面,什么是算法?算法的哪些部分是如何影响到具体的社会生活的?相关的论述对此却语541*张博伦,加州大学圣迭戈分校社会学系博士研究生。清华社会学评论 第十八辑焉不详。社会科学家一般将研究算法影响中的困难归结于由公司的知识产权限制和缺乏相关专业知识等带来的障碍。这些障碍使他们只能将算法作为黑箱进行处理。为了在这些限制下应对这一重要研究主题的挑战,除了极少数情况,研究者往往采
3、取一种外部切入的研究,而针对由算法的黑箱带来的监督问题,则提倡算法审计和对算法进行开源。我在这篇文章中论证的是,这种基于“透明”和“专业知识”的对算法的想象,忽视了算法成为黑箱这一过程中更深层次的技术和组织原因。很多时候,对于编写算法的程序员甚至是布置算法的公司而言,整体算法系统的运作过程及其产生的后果也是不明朗的。对算法的黑箱想象,预设了一个全知全能的行动者。要更好地研究算法的社会影响,我们需把算法所运作其中的组织纳入对算法的考察。本部分内容之后分为四个部分。在第一部分,我将回顾现有的关于算法的社会科学研究中对算法的想象和基于这种想象研究者对算法进行研究和监督的几种方式,并指出这种想象背后的
4、一些预设。接着,我将从程序设计范式、科技公司组织模式和算法建模文化兴起三个维度来讨论为何对社会科学中现有的对算法的想象低估了算法成为黑箱的技术原因。基于这一分析,我讨论了既有的对算法进行社会研究和监督的几种方式的局限性,并提出我们应该将组织纳入对算法的社会考察。最后,我会简单地总结并讨论超越对算法的黑箱想象在研究和实践中的意义。二界定算法想象首先需要界定的是这里的讨论范围。我在这篇文章中的讨论聚焦将算法的社会影响作为研究对象的社会科学研究,而不是聚焦以算法为工具的社会科学研究。互联网和信息技术在日常生活中的重要地位引起了社会科学家对算法的社会影响的兴趣。同时,新的数据和分析方法也催生了计算社会
5、科学(computational social science)的兴起。两个趋势在实际研究中虽有部分重合,但前者以研究对象为界定,包括来自社会学、政治学、传播学和批判地理学的一系列研究,并促成了“批判算法研究”这一跨学科领域的兴起641超越算法的黑箱想象(Gillespie and Seaver,2016;Dourish,2016;Burrell and Fowrcade,2021)。与之相对的是,计算社会科学主要以方法来自我界定,它所使用的算法模型使它区别于一般的基于抽象调查的传统定量研究(Edelmann et al.,2020)。我在这篇文章中主要关注前者对算法的论述。在这些研究中,以算
6、法为代表的信息技术被赋予了异常重要的影响力。早在 20 世纪 90 年代初,德勒兹就认为信息技术的引入使连续不断的监视成为可能,规训机构与日常生活之间的界限由此被打破。这种新形态的社会被德勒兹称为控制社会(societies of control)(Deleuze,1992)。沿着类似的思路,研究者指出算法决策和大数据是当代社会过度量化的一种表现形式(Eubanks,2018)。对人和信息持续不断地进行追踪和收集构成了新的资本的原始积累,基于这些实践的商业模式反过来直接塑造了人们的行为模式(Zuboff,2015)。因为人们的偏见和误解已经被模型系统吸收,大规模使用算法系统的结果是,既有的经济
7、和政治上的不平等被进一步加深(Eubanks,2018;ONeil,2016;Fourcade and Healy,2013)。凯西奥尼尔警醒地将其称为“数学杀伤性武器”。现有的批判算法研究为我们了解算法的可能的社会后果提供了非常重要的帮助。尽管算法被赋予了异常重要的影响力,但这些研究对算法的界定往往语焉不详,对算法的描述也常常比较模糊:很少有研究会给出一个具体的算法实例,或者详细地说明它们所研究的算法如何运作。因此,在揭示或描述社会科学所关心的“机制”这一环节上,这些研究往往力有未逮。这些研究将这种模糊性归结于实际运作中算法的黑箱性质。珍娜伯瑞尔(Jenna Burrell)详细区分了现有文
8、献中算法黑箱的三种来源:企业有意的隐藏、专业知识的匮乏和算法本身的特征。其中,前两种来源常常在现有的“批判算法研究”中出现(Burrell,2016)。企业和政府部门常常有意或者无意地隐藏自己的代码。尽管在大多数国家,算法作为“智力活动的规则和方法”不被专利保护,但算法的具体实现741美国是一个重要的例外。作为信息技术最大的生产地和市场,美国在最高法院关于道富银行和信托公司诉签字金融集团案(State Street Bank&Trust Co.v.Signature Financial Group,Inc.)的判例后,开始允许商业过程和软件注册专利。清华社会学评论 第十八辑是许多科技公司在市场
9、竞争中的比较优势,因此企业很少对外主动披露。监管的滞后也使公众缺少对影响他们算法的了解(Pasquale,2015)。第二种算法黑箱则来自研究者缺少对程序设计的专业知识。程序语言的基本语法、算法与数据结构以及更加复杂的计算机系统和网络课程都需要花费大量的时间进行学习,而这些很少被囊括在社会科学的学术训练之中。在这里,我借用了查尔斯泰勒的“社会想象”(social imaginaries)这一概念,将这些对算法的讨论统一称为“算法想象”(algorithmic imagi-nary)(Taylor,2004)。在关于算法的社会科学研究中,泰娜布彻(TainaBucher)也曾使用这一概念。她将“
10、算法想象”定义为“思考何为算法、算法应该如何,又是怎么运作的方式”(Bucher,2017)。布彻关注的主要是普通人对算法的认识是如何影响算法的作用的。在这篇文章中,我想进一步推进马尔特齐维茨(Malte Ziewitz)所提出的“算法戏剧”(algorithmicdrama)对关于算法的社会科学研究的反思。齐维茨指出,在“批判算法研究”中的一些先驱性的作品中,算法被描述为一个强有力的行动者,但是当详细描述这个行动者究竟如何行使自己的权能和影响时,这些作品又往往语焉不详(Ziewitz,2016)。这点出了现有的“批判算法研究”对算法主流描述的特征:算法是一个极具因果效力的黑箱。以黑箱为中心的
11、算法想象不仅局限在学界的研究中,也常见于媒体对算法的报道、大众读物的介绍甚至科技公司自己的宣传之中(赫拉利,2018;王坚,2016;Zeng,2018;Smith and Browne,2019)。这正符合泰勒对“想象”的界定。泰勒指出,“想象”的主要特征是它常常以背景的方式出现,而不是具有确定内涵和边界的概念或学说。就像关于新自由主义的研究对“新自由主义”的定义一样,“算法”成为一个无所不包、解释一切的深层结构。正是在这个意义上,泰勒最初的概念框架能够为我们提供最大限度的反思切入点。关于算法的这种黑箱想象蕴含着几个重要的推论。首先,通过黑箱化的想象,算法被单数化(singularized)
12、,从而可以被看成是一个具体的、有着明确范围的实体(Law,1992)。其次,算法的政治性被认为蕴含在算法实体的具体设计之中。因为诸多原因,消费者和研究者无从知晓这些具体的设841超越算法的黑箱想象计。兰登温纳(Langdon Winner)在自己的经典文章中将人工制品(arti-fact)中蕴含的政治性区分成两种:第一种政治性蕴藏在人工制品的设计之中,第二种政治性则更加以特定的人工制品所构成的科技系统与某些政治秩序有着亲和性的方式呈现(Winner,1980)。现有的算法想象对具体算法的政治性的想象正是这两种政治性中的第一种。温纳曾给出一个第一种政治性的例子:纽约城市规划专家罗伯特摩西(Rob
13、ert Moses)在设计过街天桥的时候,有意将其设计得非常低矮,为的就是阻碍公共交通,从而使依赖公共交通进行流动的城市下层阶级局限在特定的区域内。同理,主流的算法想象也认为算法的社会影响能在算法的具体设计或者源代码中寻找到(ONeil,2016;Pasquale,2015)。同这种算法的政治性相契合的是,这些研究将由算法带来的社会问题归结于“透明度”和“专业知识”两个问题(Seaver,2019)。只要我们具有了关于算法的专业知识,并且能够接触到特定算法的源代码,就能探查到算法的社会影响,消除存在于其中的可能的偏见。沿着这一逻辑,很多研究者主张通过与公司合作的内部审计、从用户角度展开的外部审
14、计以及通过推广开源项目的方式来对互联网公司和政府机构中的算法使用进行监督,以减少由算法带来的消极的社会影响。三算法是如何被打包的这样的算法想象在最近的研究中也遭遇了一些挑战。尼克西弗(Nick Seaver)指出,在实际运作中的算法往往是一个复杂的系统,以至于在公司组织中参与算法设计的成员也没有办法理解其全貌(Seaver,2019)。伯瑞尔在西弗的批评的基础上指出,在机器学习中使用的深度学习算法本身就面临着可解释性的难题(Burrell,2016)。机器学习算法也面临着方法论和认识论上的挑战,即使知道算法的基本原理,最后产生的模型也可能很难被解释(Castelvecchi,2016)。唐纳德
15、麦肯齐(Donald Mackenzie)在自己关于高速套利交易的研究中指出了研究算法系统而不是单一算法的困难。941清华社会学评论 第十八辑与单一算法不同的是,以高速套利交易为代表的算法系统并不存在单一的算法。来自不同公司的算法在特定的规则下相互合作和竞争,但研究者几乎不可能观察不同套利算法之间的沟通过程(MacKenzie,2019)。我会在后文提及,这点在其他的算法系统中同样成立。这些批评为我们提供了新的研究思路,但依然没有能够触动算法想象的核心。大量研究还是围绕算法的黑箱想象展开的。我在这些批评的基础上将进一步从三个一般的侧面说明算法是如何从教科书中的“典范算法”一步步被打包成黑箱的,
16、或者说,如何从一个清晰的、抽象的算法转变为一个实践中的算法系统的。这三个一般的侧面分别是编程范式的转换、企业组织形态的转变以及基于机器学习的建模的广泛使用。通过这一分析,我想说明的是,现有的主流算法想象事实上低估了算法黑箱产生过程中的技术和组织原因。在下一节,我会在此基础上指出,基于这一算法的黑箱想象也使基于它提出的解决方案不足以应对大规模算法应用给人类社会带来的挑战。算法打包的第一步来自实际操作中的编程范式。学校在教授经典算法和数据结构的时候,往往是通过过程式编程来实现的。但在实际的软件项目中,过程式编程几乎已经被以面对对象的程序设计为代表的模块化编程取代。面对对象的程序设计的核心在于将不同的功能和数据进行模块化的封装,信息则通过模块与模块之间的接口进行传递。这些接口规定了什么样格式的数据能够被传递进入封装的模块,封装的模块又会输出什么。面对对象的程序设计使更加复杂的软件项目成为可能。在实践上,程序员很多时候只要了解应该如何对相应的接口进行操作,相应的模块会完成什么任务,便不用关心已经封装的模块中具体的算法实现。举例来说,在学习典范算法知识的时候,我们通常会按照过程式编程的方式写各种