收藏 分享(赏)

基于隐私计算技术的金融行业跨域融合建模研究_樊巧云.pdf

上传人:哎呦****中 文档编号:2379305 上传时间:2023-05-14 格式:PDF 页数:8 大小:1.93MB
下载 相关 举报
基于隐私计算技术的金融行业跨域融合建模研究_樊巧云.pdf_第1页
第1页 / 共8页
基于隐私计算技术的金融行业跨域融合建模研究_樊巧云.pdf_第2页
第2页 / 共8页
基于隐私计算技术的金融行业跨域融合建模研究_樊巧云.pdf_第3页
第3页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、952023.02大数据0 引言随着数字金融的发展,金融行业对用户画像精度要求日益增加。虽然金融机构拥有较为丰富的金融数据资产,但往往缺少其他强相关的多维数据,需要广泛依赖外在行业数据进行跨域模型建设和数据挖掘。通信行业数据通常具有高质量、高完备性特征,能够充分刻画用户画像和潜在群体。两者结合互补,可以充分发挥双方的数据优势和场景优势,实现数据价值最大化。而在当前国家对大数据安全管控日益严格、行业对数据安全重视程度提升的大背景下,如何保障数据资产安全成为了横亘在跨域建模前的难题。为有效实现跨域数据融合、促进数据融合建模,相关行业从保障参与方数据不被暴露的角度出发进行了一些业务探索和改进。改进思

2、路主要是通过建设安全沙箱,以样本加盐加密、防火墙管控策略、定时数据管控策略等方式保障数据安全。但该模式存在两大问题:一是无法根本解决双方数据孤岛问题,只能通过简单的正负样本输入进行建模,无法进行多维标签的深度融合,影响了数据模型准确性和业务价值;二是联合建模机制较为简单,双方数据都不允许出局,无法对信任度低的客户进行深度融合建模拓展。纵观隐私计算技术的发展历史,经历了通过混淆个体实现隐私保护的差分隐私、通过加密数据或者加密程序运行来防止数据泄密的集中加密计算等过程,但均存在相关问题:或与数据隐私保护法规相冲突,或对于硬件的依赖性极高,或算力无法满足商用要求等弊病。通过不断演进,联邦学习技术集合

3、规性、无特定依赖性、算力强等优势,规避了通用安全多方计算的性能问题。联邦学习技术包括纵向联邦、横向联邦、迁移联邦三种方式,面向不同行业数据融合建模通常采用纵向联邦模式。为此,本研究提出了基于隐私技术的纵向联邦跨域建模改良措施。通过更多数据提高 AI(Artificial Intelligence,人工智能)模型效果以有效解决跨行业之间深度融合建模的问题,在数据处理过程获得各参与方用户授权的前提下,确保建模过程中数据安全和个人隐私保护。1 隐私计算技术架构首先基于隐私计算概念对传统建模的架构进行修改,其主要目标是依靠隐私计算理论实现与金融机构的业务平台互通、数据交换和模型建设与优化等。1.1 整

4、体架构设计隐私计算技术架构设计,主要包括:产品层、业务服务层、管理服务层、技术层,同时还包括隐私计算应用的安全体系和组网管理内容。如图 1 所示。隐私计算产品层:主要包括联邦学习和可信计算两个产品功能,在联邦学习产品中,提供自适应建模,点对点的数据价值交换,支持资产发现、隐私求交、特征工程、模型训练的可视化交互产品模块。而在可信计算产品中,提供数据交换、基于隐私计算技术的金融行业跨域融合建模研究樊巧云中国移动通信集团江苏有限公司摘要:为解决数据孤岛问题,金融机构对融合其他行业数据进行跨域建模需求日渐强烈,如何通过技术手段在保障数据资产安全和隐私的前提下实现数据融合和价值流通值得潜精研思。本研究

5、重点基于隐私计算技术,结合通信行业大数据能力,提出一种面向金融行业跨域建模的研究方法,并从隐私计算技术架构、联邦学习融合建模、行业模型应用三个环节对该方法进行实践,最后总结其创新优势和价值提升点,以期提供有益思考。关键词:隐私计算;数据融合;联邦学习;金融;大数据962023.02大数据模型预测、多方安全隐私计算的功能。通用业务服务层:为上层产品提供通用的业务服务,涵盖了通用算法组件,资产服务,组网、用户管理等通用业务服务。具体包括:通用算法组件、数据资产服务、组网工具组件、审计服务、用户服务等。通用管理服务层:提供保证系统运行的各个无业务状态的原子化服务组件,包括:AI 组件、监控预警、数据

6、实例化、节点资源管控、通信组件、流量监控等。基础技术层:主要为产品运行的技术环境,包括:存储、计算和中间件等技术组件。安全体系:主要包括应用安全体系和数据安全体系两部分。应用安全体系是针对数据应用的安全措施体系,包括:数据脱敏、数据加密、接口鉴权等。数据安全体系是针对整个系统的,分别从通信、模型、数据、算法以及系统自身等方面制定的安全标准,确保在业务场景支撑过程中,所有信息都能得到合法合规合理的安全保障。联盟组网管理:为了支撑隐私计算应用多模式组网能力而设计的组网协议。满足不同客户自身环境对组网的个性化需求。1.2 网络部署架构结合通信行业网络架构,隐私计算平台环境部署主要包括生产网部分、业务

7、云部分和金融机构合作方客户端节点三个部分。如图 2 所示。业务云部分:主要部署隐私计算核心应用以及安全防护、负载均衡和代理网关等内容。隐私计算核心应用部署在业务云DCN(Data Communication Network 数据通信网络)域,安全防护、负载均衡和代理网关等部署在业务云DMZ(Demilitarized Zone 隔离区)域,DCN 域与 DMZ 域网络进行隔离,通过防火墙控制访问。行业客户和合作方通过 HTTPS(Hyper Text Transfer Protocol over Secure Socket Layer)方式访问业务云应用。生产网部分:主要部署通信行业侧数据中台

8、,为隐私计算应用提供数据资产支撑,通过安全管控模块对数据全周期进行安全管控,通过统一网关模块与业务云环境进行交互。合作方客户端节点:面向金融行业合作方提供客户端节点部署,可由金融合作方自建或自行部署。1.3 数据安全管控为保障建模过程数据安全可靠,需完善统一的数据安全管控体系,包括:用户登录安全、应用通信安全、密钥管理安全、数据存储安全、数据使用安全和存证与审计等环节。如图 3 所示。用户登录安全:主要提供登录鉴权、账号锁定、敏感信息加密等能力。应用通信安全:主要包括身份认证、机密性、完整性和不可否认性四个方面。身份认证方面,通过 SSL/TSL 协议的方式进行单向/双向的认证建立连接,支持不

9、同方式配置的标准证书接入;机密性方面,在通信信道加密外,使用配置密钥对数据进行额外加密传输,降低证书和接口滥用造成数据泄露风险;完整性方面,对数据进行额外的信息完整性和时图 1 隐私计算平台技术架构972023.02大数据效性校验,在数据信息中增加时间戳和唯一消息 ID(Identity Document)身份标识号用以校验;不可否认性方面,对校验部分信息采用签名的方式,保证消息的不可抵赖性。密钥管理安全:在计算场景下采用一次一密的方式进行密钥管理,每次发起建模或隐匿求教请求时,会话内算法执行所使用的密钥都是临时密钥,仅存储在内存中,用后即销,防止泄露。非对称加密类,由合法的密钥生成方生成,对

10、称加密类,按照约定的协议生成。数据存储安全:存储安全主要包括数据资产可信、数据实例管控、数据脱敏和加密三个方面。数据资产可信方面,对数据资产进行统一分类和管理,基于元数据管理组件定义数据存储加密方式、数据分级和数据授权,评估数据质量;数据实例管控方面,应用默认不存储原始数据,只有当服务发布时,才会根据合作协议的范围实例化对应数据资产的数据集;数据脱敏和加密方面,存储的数据支持公开和脱敏的配置,实现数据资产存储的精细化管理,同时,可以根据相关配置对资产中需要的列进行加密处理。数据使用安全:包括访问控制、使用权限、数据源对接、数据合作等方面。访问控制在系统层面基于节点间的认证和密钥协议的唯一 To

11、ken(令牌)进行服务访问,在应用层面通过权限控制来限制非法的数据资源访问,在数据层面基于资产管理能力提供对字段级的资产访问控制,在操作层面通过用户、图 2 网络部署架构图 3 隐私计算安全管控框架982023.02大数据角色、权限管理模型进行控制。使用权限中通过安全类元数据信息的管理访问策略,并根据最小化原则,仅提供必要的数据使用权限。在数据源对接上,通过 SFTP(SSH File Transfer Protocol,安全档案传送协定)的方式确保数据不会被篡改和截取。在合作方式上,只有授权的组网机构才能访问已发布的数据资产信息。存证与审计:包括安全审计、生命周期管理两部分。安全审计中,对人

12、员操作进行全面日志记录和收集,由审计人员对日志进行审计。在生命周期管理中,对数据资产生命周期的重要环节,如实例化、上下线、查询等数据资产生命周期过程的原始日志进行存留和审计。1.4 数据流通流程跨域建模的核心在于数据交互,基于隐私计算的数据流通流程如图 4 所示:图 4 隐私计算数据流通流程(1)可面向金融机构实施融合建模的数据源部署在 IT 生产网的大数据平台,对数据进行脱敏处理,抽取部分样本数据发布至隐私计算节点,发布成数据资产。(2)在业务云 DCN 域,用户在系统可视化前端通过可视化输入的操作指令传输至后端。后端引擎再分别将识别到的数据资产所对应的资产编号与所需要进行的计算指令发送至资

13、产管理组件和计算引擎。在对应的数据资产上,计算引擎会根据需求实时从资产组件中抽取所需数据。所拉取数据和计算结果数据在整个计算过程中系统禁止任何落库操作,以此来保证数据应用全程均保持可用不可见的状态。(3)业务云 DMZ 域主要承担了转发服务,实现了多方隐私计算应用的交互,通过防火墙与业务云 DCN 域、互联网实现隔离访问和策略控制。隐私计算应用计算后的梯度数据通过转发服务与外部进行交换,通过严格的策略控制,仅可应用与多方安全计算的密度数据包或者联邦学习应用场景下的加密模型梯度。2 联邦学习融合建模跨域建模第二步是采取纵向联邦学习技术实现数据融合与行业模型建设。主要建模手段包括数据预处理、特征工

14、程、纵向联邦 AI 建模、算法迭代优化等。2.1 模型基础数据建设模型基础数据建设主要分为:目标碰撞样本用户集建设和建模指标基础指标集建设。目标碰撞样本用户集建设:主要由金融行业方提供当前基础样本数据的分布情况,通信行业数据基于此进行用户与预过滤;其目的在于降低暴露在联邦学习平台的用户量,保障数据安全的同时降低联邦学习平台负载问题。经过该步过滤后,目标用户应该在百万级,或者不超过银行侧样本量的 10 倍。表 1 给出一个以多维用户分群画像场景为样例的样本数据预筛选口径。992023.02大数据表 1 样本用户数据预筛选口径指标口径指标 1口径描述 1指标 2口径描述 2.指标 n口径描述 n建

15、模指标基础指标集建设:服务于模型挖掘应用等,包括特征工程挖掘,模型训练、模型优化以及后续的模型部署等。基于数据中台思想,建立贴源层、指标层、标签层等建模指标体系,形成建模关键指标。通过指标数据质量监控、数据及时性等管理,保证模型数据质量和相关问题回溯。2.2 联邦特征工程针对纵向联邦学习场景,首先基于隐私计算等技术实现样本对齐和指标融合。在不泄露双方数据的前提下,求得双方用户的交集。平台提供了多种样本对齐算法,包括基于 RSA加密算法和散列函数等。将通信行业指标与金融行业指标联合,共同作为联邦学习的建模入参指标(图 5)。图 5 纵向联邦学习用户隐匿求交与指标融合在指标融合阶段,针对指标的特征

16、工程是非常重要的工作。以风控场景为例,场景有“观察期”和“表现期”两个重要概念,其中,观察期表示用户行为的考量时间(如信贷行为特征等),也就是建模的历史数据周期,而表现期为用户在该期间的目标表现(即是否出现逾期或违约等)。按照不同的观察周期粒度和含义,分别对多方数据进行了不同周期的汇总,获得如天粒度、周粒度、月粒度、近六个月粒度等数据。对于用户天粒度、周粒度等较细粒度数据,将参与联合建模的多方数据拼接,引入了时间序列分析和矩阵分析算法等。提取用户关键行为特征,并挖掘双方数据的交叉特征。在融合数据双方方面,通过指标交叉统计、数据运算以及引入因子分解融合等,挖掘双方数据的交集以及互补特征。如图 6 所示。2.3 纵向联邦学习建模基于联邦学习以及大数据平台相关算法,沉淀了基于Anaconda(一种开源 Python 发行版本)的本地算法能力和基于 Spark Mllib(Spark 机器学习库 MLlib)的大数据处理算法能力,包括机器学习(LR 逻辑回归、XGBoost 分布式梯度增强库、LightGBM、CatBoost、SVM 支持向量机等)和深度学习(CNN卷积神经网、DNN动态神经

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 专业资料 > 其它

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2