大数据背景下算法歧视的剖析、困境与规制.pdf

资源描述

1、摘要算法决策如今已经遍布人们的日常生活，随之产生的算法歧视问题是大数据时代的一大技术难题和法律难题。算法的自主性特征及其特殊的运行机理决定了算法歧视的规制困境，欧盟的数据赋权、美国的算法问责以及关于算法公开、可解释性的规制路径都存在一定的局限性，算法权力产生的算法歧视暴政需要公权力的介入，通过建立算法审查委员会和动态审查机制来进一步规制。关键词算法公开；数据赋权；算法审查；动态审查中图分类号 D922.1文献标识码 A文章编号 1005-0183（2023）01-0116-072023年第1期总第496期法制与经济经济法大数据背景下算法歧视的剖析、困境与规制李玉莹收稿日期2022-08-06作

2、者简介李玉莹，广西大学法学院2020级在读硕士研究生。在大数据日益发展的今天，算法已经遍布我们生活的各个领域，乘车、旅游、购物、贷款、娱乐等都可以通过互联网进行，这都离不开对算法技术的应用。在大数据背景下，发展迅速的算法技术给消费者提供了更好的商品和服务，商家则通过数据分析和算法推荐来提高顾客的满意度和交易的效率。与此同时，因算法权力产生的算法歧视问题也逐渐凸显，诸如大数据“杀熟”、简历筛选系统的性别歧视、搜索引擎竞价排名等现象层出不穷，危害了公民的公平交易权、平等就业权、知情权等基本权利。社会中本来就存在基于性别、年龄、种族、职业等因素的各种歧视，算法的发展和应用则为歧视通过技术手段使这些偏

3、见和歧视的“实施”变得更为变本加厉，扩大了不良影响，不当损害了有悖于人类共同价值的权益。算法歧视作为技术难题和法律难题，其规制离不开技术的支撑和制度规则的构建，欧盟的数据赋权和美国的算法问责都为规制算法歧视提供了方向和路径，但仍需要公权力的介入来对症下药，实现对因算法权力滥用而导致的算法歧视规制。一、算法歧视的基本问题（一）算法歧视的概念界定1.传统算法和当代算法算法是指将输入转换成输出的计算步骤序列，是计算机在计算或解决问题的过程中要遵循的规则。算法常常被界定为可以由计算机等具有信息处理能力的装置所执行的解决某一问题的具体处理过程1。算法根据不同的特征可以分为传统算法和当代算法2。传统算法的

4、特点在于基本没有自主性，算法的全部内容都是设计者制定的，开发者和设计者知道且理解算法的全部内容。同时，传统算法缺乏自主获取信息的能力，无法从有限的数据中推测未知的信息。因此，传统算法不存在“算法黑箱”。当代算法的特点在于其具有自主学习的能力，意味着算法本身可以通过深度学习的能力产生无法被设计者预先了解的内容，即可能促使“算法黑箱”的产生。同时，当代算法可以从间接信息中推测出未知信息，即算法不仅可以利用输入的数据信息，且因为庞大的数据规模和机器学习能力，算法可以自主获得未知的信息，并将其运用到算法决策当中，甚至在运作中自动优化模型。本文所讨论的算法即当代算法，本文讨论的算法歧视指的是基于当代算法

5、产生的歧视。2.算法歧视的表现和概念算法歧视是指通过算法决策对被决策人产生的歧视，发生在使用算法决策工具的场景下。在算法广泛使用的互联网环境下，算法歧视体现在生活116中的方方面面。“大数据杀熟”在我国受到广泛关注是在 2017 年底，当时有网友在微博曝光，自己和朋友的账号登录同一网站预订酒店，却显示不同的价格，即常用的账号价格高，不常用的则有较多优惠。在互联网商品和服务的交易中，经营者通过对收集来的用户信息进行分析，对用户进行画像，通过算法实现“千人千价”，通常对熟客、支付能力和意愿更高的消费者收取更高的价格，从而实现“大数据杀熟”。在美国司法系统中，算法还曾被用来预测罪犯的再犯罪概率，但因

6、相关算法对黑人被告的评分数据过高而被叫停此做法。因该评分数据对白人和黑人的统计结果相差较大，被认为存在对黑人群体的歧视。2016年，我国“魏则西事件”中的主人公因为在百度上搜索出某医院的生物免疫疗法，随后在该医院治疗但未能好转，反而耽误诊治，最后因肿瘤扩散而去世。此事被认为是百度对医学信息的竞价排名展现了赤裸裸的算法歧视，并因此造成了严重的后果。同样的，今日头条因算法推荐内容同质化而广受诟病。大数据背景下，应用算法可以向消费者推荐感兴趣的商品和提供便捷的服务，可以协助司法机关预测罪犯的再犯罪概率，可以为用户提供更好的互联网使用体验，但如果设计者对算法的不当设计、对数据的不当分析和利用以及算法的

7、自主决策常常会将人类的偏见和歧视植入算法中，甚至产生设计者和使用者也无法预料和控制的歧视结果。在国际人权法中，构成歧视需要符合相关条件，核心在于差别对待，不仅要存在差别对待，差别对待的理由还要是被法律所禁止的，同时差别对待还应产生了不良后果3。算法歧视因算法的自主性特征，被称为自动化歧视（Automated Dsicrimination），由于算法除了自主性的特征，还可能被人有意设计而产生歧视。本文认为算法歧视是指算法的开发者、设计者、使用者利用算法实施或者算法在运行过程中本身实施了为法律所禁止的差别对待行为，损害了被决策者的平等权、知情权等权利。（二）算法歧视的类型1.根据主

8、观意图分类算法歧视根据行为主体是否具有“歧视”意图，可以分为差别待遇歧视和差别性影响歧视。差别待遇歧视要求行为人具有歧视的意图，差别性影响歧视要求客观上具有差别性的影响，即产生了歧视结果。差别待遇歧视又可以分为显性歧视和隐性歧视。显性歧视直接将性别、种族、国家、宗教信仰等特征因素作为考量因素，具有直接故意的歧视意图。隐性歧视采用的是间接的因素，即上述特征因素的替代因素，例如通过限制身高来进行性别歧视，不体现直接故意的歧视意图4。隐性歧视因为其隐蔽性更难被发现和规制，是算法歧视规制中的一大难题。2.根据歧视群体分类根据歧视群体的不同，即根据的敏感数据的不同，算法歧视可以分为性别歧视、种族歧视、宗

9、教歧视以及性取向歧视等，其中常见的如就业领域的简历筛选算法系统出现的性别歧视。2018 年有媒体曝出亚马逊所使用的招聘系统存在对女性的歧视，算法在进行简历筛选时，包含“女性”等词的简历会受到负面评价，被降权处理5。另外还有对黑人的歧视，也常见于各种算法中。例如，美国的网约车公司 Uber 因为其使用的匹配乘客的算法很容易让司机猜测到乘客的种族，导致黑人在使用Uber乘车时受到歧视，此即上文提到的隐性歧视的实例，也是种族歧视的实例。3.根据运行特征分类有学者认为根据运行特征，算法歧视可以分为三种类型，即特征选择型、偏见代理型和大数据杀熟型6。特征选择型是指算法开发者、设计者利用敏感数据，对社会中

10、已经存在的刻板印象和歧视的算法表达。偏见代理型与特征选择型的不同在于算法开发者、使用者使用的训练数据不是敏感数据，而是对与敏感数据相关联的数据的联合使用，即对相关联数据的联合使用。相关联数据的特点在于可以通过对不具有敏感信息的数据进行分析，从而推测出未知的信息，这些未知的信息会致使歧视现象的发生。大数据杀熟，即算法价格歧视，一般不是针对单一消费者，是一种针对消费者群体违反诚实信用原则的行为7，通过采集的消费者的收藏数据、浏览数据、购买记录等信息对消费者进行用户画像，从而对不同的消费者进行不同的定价，尤其是对老客户实施更高的交易价格，实际上实现117了经济学上的一级价格歧视。有学者认为从表面上看

11、大数据杀熟是一种价格歧视行为，从深层上看则反映了我国对个人数据保护的欠缺8。（三）算法的运行机理算法的运行可以分为三个阶段，即算法设计阶段、算法开发阶段和算法应用阶段9。算法设计阶段是设计者对逻辑思维进行语言描述，通过文字来表达人的逻辑以后续应用到算法中去。算法开发阶段是将算法设计阶段的语言描述转化为源代码，即将人的思维逻辑通过计算机语言表达出来。算法应用阶段是最终程序进行算法决策的阶段，设计者通过驱动源代码来运行算法程序，从而完成算法决策。算法运行的三个阶段都有可能产生算法歧视，分别属于先行存在性偏见、技术性偏见和突发性偏见10，这是在机器具备学习能力之前就已经存在的偏见，分别在不同的阶段影

12、响了算法歧视的形成。1.算法设计阶段在算法设计阶段，由于计算机存在先行存在性偏见，算法被认为嵌入某种偏见或者某种文化体制、政治体制等参数而发生歧视，亦可能会受到设计人员的价值判断、公平观念的影响而发生歧视。正如学者所言，设计者设计了程序算法，他们固有的价值观和偏见可能会嵌入程序指令，从而导致算法运行的过程以及决策结果都带有一定的倾向性11。该阶段歧视的产生主要来源于训练数据，如果训练数据本身具有歧视和偏见，算法会固化既有的歧视。正如学者所言，算法的设计原理就是对社会运行方式的模型重塑，基于历史经验的算法去预测未来，将无法完全跳出历史偏见的局限9。2.算法开发阶段在算法开发阶段，技术人员会因为技

13、术所限而不能制定完善的算法，从而导致算法应用阶段发生算法歧视，即算法的技术性偏见。当然，以算法价格歧视为例，技术人员可能会故意设计对老顾客“杀熟”的算法来实现一级价格歧视，此时算法歧视的产生不是因为开发阶段的技术所限，而是设计人员有意为之。3.算法应用阶段算法应用阶段还可能发生突发性偏见，即应用过程中发生不受设计者控制、在设计者意料之外的突发性决策，此种决策源于“算法黑箱”和机器的深度学习能力，此种算法歧视是难以预见和难以避免的。该阶段产生的歧视还有可能来自于输入数据具有歧视性。输入数据不同于训练数据，训练数据是用来设计算法的数据库，而输入数据是在具体的决策中需要的原材料，因此算法设计和算法开

14、发中立不意味着算法决策结果一定中立12。二、算法歧视的现有规制路径及其局限性（一）域外规制介绍计算机程序遵循“GIGO”（Garbage in,Garbageout）定律，算法运作因此遵循“BIBO”（Bias in,Biasout），指的是输入具有歧视性的数据就一定会输出具有歧视性的决策结果13。事实上，各种机器学习算法都是基于过去的数据并利用某种归纳偏好来预测未来的趋势，具有歧视或偏见的数据会被记录和学习并应用到未来的预测中去，然而科技的发展应该有助于减少歧视而不是固化歧视，这是在大数据时代科技发展所面临的难题。1.欧盟2019年，欧盟委员会发布了人工智能道德准则可信赖 AI 的道德准则（

15、Ethics Guidelines forTrustworthy AI），其中提到四项道德准则，即尊重人的自主性、预防伤害、公平性和可解释性14。2016年，欧盟通过了通用数据保护条例（以下简称条例），条例是目前对个人数据最全面和最严格保护的代表，亦是第一部对规制算法歧视进行明文规定的立法15。条例把数据清洁作为规制算法歧视的首要原则，即通过对具有偏见和歧视的训练数据进行“清洁”来规制算法歧视，具体操作是将训练数据中的敏感信息移除来达到清洁数据的目的，也可以称之为数据脱敏，去除和脱去个人信息中具有身份识别性的敏感信息。个人数据赋权是欧盟保护个人数据和规制算法歧视的主要途径，条例在数据

16、权利方面也做出了相关规定，规定了访问权、被遗忘权、更正权、反对权、数据携带权、限制处理权等权利。2.美国2017年1月，美国计算机协会发布了关于算法透明性与可责性的声明，该声明针对算法的透明性和可责性提出了七项原则，即意识原则、访问与118救济原则、可问责性原则、可解释性原则、数据跟踪原则、可审计原则以及验证与测试原则。2019 年 4月，美国国会议员提出了算法责任法案，该法案授权联邦贸易委员会要求企业对自动化决策系统的歧视风险进行评估。2019年6月，美国国家科技委员会发布人工智能研发战略计划，强调通过优化设计提高AI系统的公平、透明和可问责性。美国与欧盟的不同之处在于，欧盟对个人数据的保护更为严格，不仅具有集中的立法，而且具体规定具有强制性。而美国更加强调市场和自由，因此只是在医疗、教育等敏感的领域进行专门的立法，立法比较分散。同时，美国更加强调自我规制，更多的是通过行业自律的方式来保护个人数据。总的来说美国认为个人数据应强调流通价值，采用以算法责任为中心的规制模式15。（二）现有规制路径及其局限性1.算法公开、透明及其局限性从算法的分类和运行机理可以看出算法具有不透明性和自

展开阅读全文