1、收稿日期:20220516基金项目:广东省基础与应用基础研究基金自然科学基金面上项目“突发事件舆论与隐私泄露协同演化机制及其风险控制研究”(项目编号:2021A1515011805);国家自然科学基金“基于计算实验的社会化媒体隐私多源互动泄露机理研究”(项目编号:71801229)。作者简介:朱侯(1985),男,副教授,博士,硕士生导师,研究方向:隐私管理、计算机模拟。吴子帅(1998),男,硕士研究生,研究方向:信息资源语义分析。通讯作者:韦秉东(1996),女,硕士研究生,研究方向:信息资源语义分析。信息传播与信息规制基于 BET 文本分类模型的 APP隐私政策完整性评价研究朱侯吴子帅韦
2、秉东*(中山大学信息管理学院,广东 广州 510006)摘要:目的/意义 隐私泄露多发的原因之一在于部分 APP 隐私政策不够完整合规。APP 隐私政策的完整性评价有助于推动隐私政策合规性研究,并揭示运营方收集和使用用户隐私的现状。方法/过程 研究针对主流 APP 的隐私政策文本,利用 Bert 分类模型和 L2 归一化等方法计算得到其完整性得分,并从完整性的角度比对分析了不同类别和典型 APP 的隐私政策。结果/结论 研究发现,Bert 模型分类效果极佳,同时 APP 间隐私政策完整性差别较大。研究提出的隐私政策自动分类评价方法有助于隐私政策评价研究向自动化和智能化方向发展,并为隐私政策合法
3、合规性研究提供了借鉴。关键词:APP;隐私政策;文本分类;评价DOI:103969/jissn10080821202303012中图分类号G203文献标识码A文章编号10080821(2023)03012312esearch on Integrity Evaluation of APP Privacy Policy Based on BET ModelZhu HouWu ZishuaiWei Bingdong*(School of Information Management,Sun Yatsen University,Guangzhou 510006,China)Abstract:Purpo
4、se/Significance One of the major reasons for APPs privacy leaks is that some APP privacy poli-cies are not fully integrated and legitimate The integrity evaluation of APP privacy policy aims to promote the research ofprivacy policy legitimacy and reveal how online platforms collect and use users per
5、sonal information Method/ProcessTargeting mainstream mobile applications privacy policies,the research used Bert classification model and L2 normalizationto calculate their integrity scores,compared and analyzed the privacy policies of typical APPs in different categories fromthe perspective of inte
6、grity esult/Conclusion The study finds that the Bert model works great in textclassification,and the privacy policy integrity varies greatly between APPs In conclusion,the automatic classification and evaluationmethod proposed in this paper promotes the privacy policy evaluation research in the dire
7、ction of automation and intelligenceIt also provides a reference for researching privacy policy legal complianceKey words:APP;privacy policy;text classification;evaluation信息技术在人们的生活中逐渐渗透,与人们日常生活紧密融为难以分割的整体。然而,大多数用户并不太关心工具、设备背后的技术细节,尤其是当前日渐普遍的大数据技术与个性化服务,使得人们在互联网上留下的每一步足迹都为个人信息的泄露埋下隐患。生活的便利可能同时伴随着个人隐
8、私的牺牲。在第 44 次 中国互联网络发展状况统计报告1 对 2019 年上半年网络安全问题的统计中,3212023 年 3 月第 43 卷第 3 期现 代 情 报Journal of Modern InformationMar,2023Vol.43No.13有 24%是个人信息泄露问题。互联网时代隐私泄露事件多发的一大原因在于,APP 平台方常以个性化推荐或提供服务为由,过度收集和利用用户的隐私信息,大大增加了其被泄露的可能;更有甚者直接非法倒卖用户隐私信息以谋利。隐私政策的出现则是对平台保护用户隐私的一个规则限制,是平台对用户信息合法收集和利用等处理行为的宣告。用户隐私政策既是政府对互联网
9、企业发展的限制与规范,更是互联网企业与用户之间关于信息使用的契约。隐私政策是用户隐私保护的一道防线。但是,由于隐私政策篇幅较长,用户常常不会仔细查看隐私政策,对其是否符合法律法规要求不够在意。一些企业可能利用这点,使用冗长的隐私政策提高用户的阅读成本。这样用户在可能出现的法律纠纷中就会落于下风。因此,平台对用户个人隐私的保护,首先就体现在对平台制定的隐私政策是否合乎法规,是否囊括应说明的内容,以及是否予以落实。APP 隐私政策是平台方对用户隐私信息处理举措的明细直观体现,判断隐私政策文本内容是否阐明完整则是评判 APP 隐私政策是否合法的方向之一。通过对隐私政策的自动分类对隐私政策进行评价,能
10、够为用户选择对隐私保护更具力度的平台提供辅助,也可以让监管人员和机构更快速地了解该隐私政策是否囊括了法律规定应在隐私政策中包含的内容,减轻工作人员负担。当前并没有通用的APP 隐私政策完整性评判标准,但我国 信息安全技术个人信息安全规范50 和欧盟 通用数据保护条例49(General Data Protection egulation,GD-P)等法律条例都对隐私政策中应包含的内容给出了相关规定,可以认为更完整和广泛地覆盖这些法律条例要求的隐私政策有着更高的完整性48。因此,本文引入融合上下文语义的文本分类方法,以相关法规中要求的隐私使用或保护措施为标签,对隐私政策文本进行自动分类检测,并根
11、据分类结果利用 L2 归一化54 的方法计算得到隐私政策的完整性得分,对不同 APP 隐私政策进行量化比较分析,以期规避传统隐私政策评价方法的主观性和局限性,推动隐私政策评价研究向自动化和智能化方向发展。1相关研究1.1隐私保护总体研究现状隐私泄露是近几年社会关注的热点问题,不少学者都针对提升国内用户隐私保护水平的方向进行探索研究。陆雪梅等2 在通过典型案例、统计分析和系统分析等手段分析用户隐私信息泄露的成因后,提出若要保护用户隐私,则需要政府方对隐私保护进行立法,且企业方需从技术层面上加强前沿信息技术的应用,建立行业自律规范等。徐艺心3 详细分析了互联网生态环境的特点以及可能会对用户隐私保护
12、造成的影响,提出了用户隐私保护的制度模式,除了政府需要监管平台外,也需要明确平台方在保护用户隐私信息上的义务与责任。谢珍等4 提出,用户画像的建设必定需要用户数据,但平台方必须要从安全性、匿名性、用户同意、服务内容与数据提供对等四大原则来平衡数据应用与隐私保护之间的平衡方案,确保用户的信息安全。以往研究中提出的优化隐私保护建议常与推动完善隐私保护政策内容和措施相关,用户隐私信息的安全性离不开法律规范和平台方对隐私的保护。1.2隐私政策与隐私条款相关研究用户隐私信息的安全性离不开法律规范和平台方对隐私的保护,而隐私政策是运营商和用户就隐私收集和保护问题达成一致的重要契约。李卓卓等5 利用内容分析
13、法调研我国 APP 隐私政策中保护用户隐私信息的实际表现,发现 APP 运营平台方在数据利用相关内容上的说明存在漏洞,如部分APP 未告知平台方将如何进行隐私数据处理,对信息的使用是否存在风险,未声明具体权限等。陆康等6 建议图书馆应以法律规范为标准,构建符合图书馆发展方向的隐私条款,制定具有行业特色的隐私保护制度。徐磊等7 以图书类 APP 隐私政策为研究对象,认为当前隐私政策存在重点不明、规定模糊等问题,认为可以通过提升用户在修订隐私政策过程中的参与度,夯实隐私政策法律基础等方法,提高隐私政策质量。郭清玥等8 采用文献调研法、内容分析法和 LDA 主题建模法,收集约200 款 APP 隐私
14、政策文本进行分析,获得国内常用APP 隐私政策的通用内容框架,在经过与国内外法律政策文件的对比后,认为国内 APP 隐私政策在个4212023 年 3 月第 43 卷第 3 期基于 BET 文本分类模型的 APP 隐私政策完整性评价研究wwwxdqbnetMar,2023Vol.43No.3人信息主体权利和个人信息安全保护体系等方面内容的介绍还有所欠缺,提出对我国 APP 隐私政策内容框架的优化方向。当前 APP 隐私政策的内容可能存在一定安全隐患,而隐私政策需要做到合理、合规、合法才能实质性保护用户隐私信息。当前部分隐私政策研究聚焦在不同隐私政策的对比方面,比如:不同国家(地区)隐私政策的对
15、比、不同网站隐私政策的对比和不同 APP 隐私政策的对比。有的学者选择的是分类型收集不同平台的隐私政策进行对比911;有的学者则会专注某一领域的平台,如图书馆与档案1214、电商1517、政府平台1821 和健康领域。不同领域内又有不同功能平台主题的具体细分,比如在健康类 APP 方向,马骋宇等选择的主题是不细分功能的多种健康类 APP22,OLoughlin K 等则专注于心理抑郁类的健康 APP23,而 Benjumea J 等选择了健康 APP 中的癌症类 APP作为研究对象,从欧盟的 GDP 法规(通用数据保护条例)出发,改进了隐私政策评价量表24。1.3隐私政策完整合法性相关研究优化
16、隐私政策是提升用户隐私保护力度的重要建议方向,国内外学者常将隐私政策的完整性作为评估隐私政策是否符合法律规范的一大落脚点。国内外对隐私政策完整性的评价研究常使用内容分析、层次分析、文本编码25 等方法来观察平台的隐私政策有没有涉及法律条款规定应当涉及的方面,并根据隐私政策中提到的对法律法规的遵守情况给出分数评价。常见的完整性评价体系包含个人信息收集、个人信息使用、Cookie 技术、信息披露条件、数据保护、用户权利、未成年人隐私保护等几个方面26。朱颖还对 APP 是否有专门隐私政策、隐私保护政策名称规范性、获取隐私政策的便捷性、用户接受政策的权利性、更新时间的标注和企业是否提供联系方式 6 种表现进行了分析27。徐雷等使用内容分析法,评价国内热门 APP 隐私条款的获取途径、可读性和文本内容,既统计了 APP 在不同内容类别表述上的整体表现,也从 70 余款 APP 中选取了表现突出的几款进行具体说明28。除了通过完整性来对隐私政策的合法性进行评价的常规分析,一些学者另辟蹊径,使用其他方法来评估隐私政策。Mamakou X J 等29 关注的是如何评估网站遵守法律和道德准则的情况,提