大数据算法歧视的决策危机与风险防控

资源描述

1、2023年第04期（2023年04月）No.04 202362黑河学院学报JOURNAL OF HEIHE UNIVERSITY以大数据作为支撑，算法决策作为引擎的大数据时代已经来临。大数据是算法的依托，算法是大数据的问题表达式，算法将零散孤立无交集的大数据，经过收集、提取、分析、统计、组织呈现，而大数据处理关键技术正是包含了大数据采集、大数据预处理、大数据存储及管理、大数据分析及大数据挖掘、大数据呈现和各个领域的应用(如大数据检索、大数据可视化、大数据应用、大数据安全等)。于是算法在云计算、大数据、人工智能时代下的影响力正逐渐放大，俨然成为人类在社会生活中各项决策的推手，引导人们去看指定范围

2、新闻、购买其推荐的产品，决定着人们是否可以被批准贷款，帮助人事决定是否解聘或继续雇佣员工，分析下一季度的市场营销策略的可行性，评估着某类型犯罪的发生率等等各领域事件背后的数据是客观的，但算法是由人为设计的，这就不可避免的反映出算法设计者或算法客户的主观意识和隐含歧视，可以通过采取制定算法管理制度与法律风险防控体系为保证人工智能发展与大数据时代前进齐头并进，健康稳健前行保驾护航1。一、算法歧视的类型大数据专家舍恩伯格在大数据时代一书中提道：“大数据的特征是追求效率，而不是绝对精确；追求的是相关性，而不是因果性，在现代社会，大数据和算法结合已经颠覆了传统的决策方式”。不得不考虑，基于某算法的大数据

3、运用是否具有正当性基础或伦理基础呢？其实除了伦理与公平问题的复杂性存在因素之外，更难突破的便是算法本身的专业性和不透明性。浸润了算法的大数据社会，在各领域、各群体、各行各业的应用中无不透露其歧视的本性。1.数据领域的算法杀熟大数据杀熟是指同样的商品或服务，老客户看到的价格反而比新客户要贵出许多的现象或会员用户的实际支付价格高于非会员用户，甚至在购买产品的数量和种类上受限，所呈现出大数据结果的背后，则是算法歧视在操作。其实不止在消费领域，在大数据环境下，人类行为只要被记录，就可能会被分析，被深度学习，被制订出“数字画像”，被贴上标签。而大数据背后的算法杀熟就是典型的针对用户群体制定的“千人千面”

4、的营销策略，使群体被区别对待，从而主体利益受到损害，甚至隐私和名誉受到侵害2。2.特征群体间算法歧视这种类型下，算法决策者在个体间往往采用非歧视性算法，但是个体与个体因某类特征被划分成特征群体后，个体背后的数据集合在一起反而会导致歧视性的后果，这里有以人员性别和年龄要求为条件的招聘，本来是企业从自身工作岗位性质和工种考虑，但很可能会在社会特定行业范围中造成性别歧视和超年龄段人员招工恐慌的后果。这种特征群体间的联系比较隐蔽，即使性别和年龄范围是工作性质本身决定的，看似与人为干预无关，但产生此类歧视影响更为恶劣。3.行业经营的竞争不公此前，中国消费者协会根据用户投诉反映，消费者权益在算法应用在网络

5、领域之后出现评价算法、排名算法和推荐算法等不公待遇，很多行业在大数据集基础上借助算法本身的技术难度性高、隐蔽性强的特征，有意扩大商家和消费者之间的沟通鸿沟，损害消费者公平对待权、自主选择权、隐私保护权和事实知情权，如网络购物平台折扣规则复杂、网络搜索竞价排名推荐、网络不实信息推送、网络评价被刷好隐差结果失真等行为已经严重违背了算法服务人工智能，服务人类社会生活的初衷，让消费者面临歧视对待，甚至造成其消费风险3。除了商家与用户这一对消费关系之外，在行业之间也时收稿日期：2023-02-28基金项目：2021安徽省人文社会科学研究重点项目“区块链技术在教育大数域中的应用研究”(SK2021A109

6、2)作者简介：关金金(1985)，女，安徽肥西人，讲师，硕士，主要从事大数据技术与应用研究；卢敬孔(1981)，男，河南周口人，律师，硕士，主要从事公司法、合同法研究。doi：10.3969/j.issn.1674-9499.2023.04.018大数据算法歧视的决策危机与风险防控关金金1卢敬孔2(1.安徽工商职业学院，安徽合肥 231131；2.安徽国有资本运营控股集团有限公司，安徽合肥 230000)摘要：大数据算法具有两面性：一方面，大数据技术的快速发展渗透到社会的各个领域，惠泽各方；另一方面，算法黑箱的不透明性、复杂性和隐蔽性给个人大数据、社会大数据和政府大数据也带来诸如算法杀熟

7、、信息同质、交易不公等风险。立足国情，完善算法公正规范体系，健全算法风险法律防控，从而平衡科技创新与价值权益，使算法能客观公正地支撑大数据技术服务体系。关键词：大数据；算法歧视；决策危机；风险防控中图分类号：D922.8 文献标志码：A 文章编号：1674-9499(2023)04-0062-032023年第04期（2023年04月）No.04 202363管理研究时存在算法歧视下的竞争不公。Google利用PageRank算法计算出每个网页的价值得分，这个算法设计出来的基础是针对所有在Google Chrome上架的网页，但待Google Shopping上架后，谷歌优先排位自己的商品，给与

8、更好更多的基于广告的搜索结果支持，影响了用户的对于搜索产品的价值判定，这无异在行业竞争中产生非公正垄断，让其他经营者的收益和名誉受损4。二、算法歧视的风险评估1.边界被模糊化：数据校准现实大数据时代的人们认为数据等同于信息，或者认为数据是当前时代对于信息表达最先进的方式，海量数据已经充斥、渗透到社会经济生活各个领域中，人类比以往任何一个时代距离其他人或世界更近，传统的信息存储工具、介质和空间、时间的要求已经被数据化存在所改写，于是线上与线下、网络与实体的边界日渐模糊。但数据从来都是通过被使用才能体现出其价值，算法则是数据的外在表达，定义着数据的使用规则，对数据重新编码，将零散的、毫无关联的非结

9、构化或半结构化数据建立关联，于是算法让数据与产生数据的现实产生了差异，在算法经济的组织引导下，被资本所牵引走向市场竞争中，偏离现实，成为字符化的表征5。2.数据挖掘偏航：数据决策事实数据决策是利用字符化表征数据决定采取使当事人面临的事件按照预定的目标行动呈现令人满意的结果状态，经历提出问题、设立目标与评价指标、拟定行动方案、分析评估、优化方案、验证实施几个步骤，在应用管理过程中，数据决策往往要依赖于数据模型，模型是数据挖掘后的一种表现方式，数据挖掘是从大数据中通过算法寻找规律，揭示出隐含未知信息的过程，建模者一般依据挖掘存在的问题针对性地建模6。数据挖掘经历样本抽样选取、估计和假设检验，模式识

10、别、搜索算法建模、机器学习的过程，借助与过程模型，来帮助实现挖掘步骤，无论是有指导的利用有效大数据建立起的对特性属性描述的模型，还是在所有属性中寻找可能关系的无指导数据挖掘模型，都避不开参与到大数据的处理整个过程，并且因应用领域的不同，选取统计的样本会不同，那么数据便不是数据本体，因决策的目的性而导航挖掘，是否能够真实反映事实本身便无法评价。3.客观公正隐藏：数据引导价值大数据最核心的价值体现在三个方面：一是对人类思维进步的社会价值，二是经济学收益提升的商业价值，三是行业技术发展的技术价值。大数据技术的普及与应用带来了商业的繁荣、生活的便利、经济的飞跃，这些为社会发展建设增色的画面无不透露着：

11、数据改善生活，但在这建设成果背后，算法设计、平台开发、数据采集与处理、商家利益下的互联网生态组件对市场经济结构体系发出了挑战，算法就像一只看不见的手，体现的是算法设计者和实现者的意图，操控着数据和网络的规则，分配着数据资源，倾向大数据的使用者，正是这样利用算法的结果引导算法的用户，隐藏着数据的客观事实，体现出特定的社会利益结构体。三、算法歧视的溯本追源分析大数据处理过程之后，算法注入歧视的环节总结有三个方面，分别是大数据集的构建过程、机器学习的目标制定过程与特征选取和大数据标注过程，前面两个的操作者是大数据工程师，后面是标注信息者。大数据集是机器学习的基础，倾向于被主流牵引，如果构建之初缺乏代

12、表性将不能客观反映数据背后的现实意义，那么算法决策就难免会有失公允，再者目标和特征者两个因素也容易受到黄金训练算法便利操作的影响；大数据标签的标注是算法是否决策达成的一个重要环节，决定算法会训练生成出怎样的数据模型，直接影响算法对大数据集的反应结果。1.算法本身负载价值作为人工智能技术机器学习核心支撑的算法除了提供技术服务支持，也体现了带有伦理性的价值观，在各行各业扮演着不同的角色和任务，它并非客观，往往在特定群体中蕴含着预设的价值立场，嵌入到大数据的采集、处理、分析、挖掘、呈现中，最终在算法输出中出现算法歧视的结果7。亚马逊公司在招聘时使用了本公司的一套“算法筛选系统”来筛选简历，开发小组利

13、用500个算法模型识别50 000个在简历中出现的术语，训练算法在不能能力分配中的权重，但后期被路透社披露算法对男性应聘者有明显倾向，发现用来训练算法的简历数据本身就带有很强的性别偏好，算法本身就被负载了招聘性别倾向。2.数据集缺乏代表性大数据是海量数据的代称，而并非“全数据”，这也就说明大数据本身的不完整性，并且由于大数据采集技术手段、采集设备可靠稳定性、采集者技术水平、资金支持等因素影响，采集到的数据集可能跟算法设计者的预定设想大相径庭，造成数据集缺乏代表性、样本抽样选取不典型、数据中心体不明确等。同时，在对算法模型进行训练时出现无法对数据分布全局估计，或者模型被过度训练造成训练数据准备不

14、足，导致模型过拟合的情形。3.目标特征训练偏差目标特征是机器学习的原材料，直接影响最终模型，算法是数据的特征表示，任何一种算法，能利用的特征越多，算法可供参考的信息就越多，准确性就会得到提升，但相应地，计算就越负责，需要搜索的数据空间就要更大，于是用来训练的数据在每个特征上就会变得稀疏，如利用朴素贝叶斯算法来对邮箱中垃圾邮件过滤，在算法模型建立时将单词选取为特征，那么这样的特征集可能高达数十万，并且模型选择的要求是尽可能地贴近样本真实分布，但训练样本地高拟合度不是理想选择，因为其最终会选取出最复杂高阶的模型，无法保证对样本真实分布泛化误差低的要求8。4.大数据标注黑箱化算法从接收指令输入到在有

15、限时间内获得目标输出结果的全过程中，很多人并不了解其背后的存在，如果说各类智能设备利用计算平台和应用软件来收集记录数据，那么算法就是数据的管理者，按照设计者的思路对数据进行抽样和分析，连接数据和用户，用户仅获得数据的处理结果，表面上看，通过计算机程序输出的算法运作结果看似公正客观，实2023年第04期（2023年04月）No.04 202364管理研究则是忽略了技术提供的信息的透明性。ProPublica组织曾发现，亚马逊公司旗下的购物系统会偏袒推荐自己以及合作伙伴的商品，以低于其他商家产品的价格垄断市场，隐瞒商品运费信息，导致消费者得不到公正的商品比较结果。四、算法歧视的监督防控1.构建合理

16、的算法价值规范体系大数据时代背景下，预防措施无法有效遏制算法设计者的歧视行为时，为避免对他人个人数据与权益造成侵害，可以通过构建合理的算法价值规范体系来健全人工智能相关的法律伦理，对数据算法进行优化公序良俗、道德法律，确定具有普遍正义的价值目标，清洗出数据库中敏感词汇，在坚持安全性、创新性的基础上制订长期规范战略，在市场监管部门配合下从软件产品、功能平台的源头上遏制歧视的苗头。2.建立专门的算法法律监督体制针对可能存在的侵权责任人不明确的法律风险，需要通过建立完善的法律监管制度进行改善，中华人民共和国民法典第一千一百九十四条规定：“网络用户、网络服务提供者利用网络侵害他人民事权益的，应当承担侵权责任。法律另有规定的，依照其规定。”第一千一百九十五条规定：“网络用户利用网络服务实施侵权行为的，权利人有权通知网络服务提供者采取删除、屏蔽、断开链接等必要措施。通知包括构成侵权的初步证据及权利人的真实身份信息。网络服务提供者接到通知后，应及时将该通知转送相关网络用户，并根据构成侵权的初步证据和服务类型采取必要措施；未及时采取必要措施的，对损害的扩大部分与该网络用户承担连带责任。”第一千一百九十

展开阅读全文

大数据算法歧视的决策危机与风险防控_关金金.pdf