1、投稿网址:年 第 卷 第 期,():科 学 技 术 与 工 程 引用格式:江欣俞,李晓会,秦若婷,等 基于图神经网络的兴趣点推荐的隐私保护框架 科学技术与工程,():.,():.基于图神经网络的兴趣点推荐的隐私保护框架江欣俞,李晓会,秦若婷,张爱(辽宁工业大学电子与信息工程学院,锦州)摘 要 传统的基于图神经网络的兴趣点模型的研究是通过简单的注意力机制进行权重定义,或仅仅将多种因素简单进行线性组合,缺乏从多角度考虑用户和兴趣点自身的语义信息和交互信息。此外,现有的图神经网络推荐依赖于图结构信息的集中式存储和训练,存在隐私泄露风险。为了解决上述问题,提出基于图神经网络的兴趣点推荐的隐私保护框架(
2、,)。首先,通过引入多特征模式和注意力机制对图结构进行强化,构建强化用户社交关系图模型;其次,通过多场景角度提出兴趣点邻居结点采样算法以及重新设计卷积聚合机制,对异质图使用语义级别注意力机制进行聚合;最后,提出了可变动态梯度的客户端差分隐私算法,达到边优化边反馈的效果。通过在 和 不同的数据集上进行大量实验,证明该方案具有有效性,弥补了图神经网络推荐因隐私威胁带来的局限性,优于集中式图神经网络推荐方法,同时也优于传统兴趣点推荐方法,并且 可以更好地克服推荐中的数据稀疏和冷启动问题。关键词 隐私保护;兴趣点推荐;图神经网络;联邦学习;差分隐私中图法分类号;文献标志码 收稿日期:;修订日期:基金项
3、目:国家自然科学基金青年科学基金();辽宁省应用基础研究计划()第一作者:江欣俞(),男,汉族,辽宁丹东人,硕士研究生。研究方向:大数据安全、隐私保护。:。通信作者:李晓会(),女,汉族,辽宁盘锦人,博士,副教授。研究方向:网络安全、信任管理、隐私保护。:。,(,),()(),;大数据时代,移动定位技术和移动设备快速发展,如智能手机、智能手表,产生了大量的位置交互数据,并且被用于各种场合,使得基于位置的社交网络(,)在实际应用中逐渐发展起来,如 和 以及国内的饿了么、滴滴等都是使用基于位置的社交平台。与此同时,随着热门应用的日活用户达到上亿级别,日上传量为上千级别的爆炸式增长,给用户带来了信息
4、过载的难题,因此推荐系统的出现使处理此类信息过载方面发挥了重要作用,用户通过投稿网址:在学校、餐馆、景区可以进行签到形式的评论,这就产生了下一个兴趣点推荐服务,这类服务通过挖掘 中用户与地点之间丰富的签到关系,可以有效地推荐兴趣点,提升用户体验。最近,图神经网络(,)模型的繁荣为学习结点嵌入提供了强大的框架,在捕捉兴趣点(,)结构依赖性方面具有很大的优势。因此,国内外研究者提出了多种通过 解决 推荐相关问题的方法,例如 等设计了一个相似函数通过表示学习来构建 转换图,在转换图上使用图卷积网络来丰富每个 的表示,将学习到的图合并到序列模型中。等提出了一种用于预测用户将访问的下一个 类别的神经网络
5、,通过利用递归神经网络(,)和图形神经网络,并将它们结合在一个新的架构中,它还将时空属性关联起来,将 类别视为主要上下文信息,并通过递归和基于图神经网络的组件相结合。等通过图神经网络的地理结构进行推荐,为用户推荐合适的新的,利用了协作顺序和内容感知的信息进行 建模。然而,以上现有的研究主要是针对 自身结点的特征,如地理、空间等信息或者考虑 之间的关系,而忽略了来自用户社交方面的复杂交互信息。为了缓解以上研究导致 推荐的冷启动问题和推荐的准确性,通常研究者引入社交关系信息同时进行建模。最新的研究是 等提出在社交图中连接的用户可能有不同项目上下文问题,同时在建模社交图和项目中,存在多个关系角度时,
6、提出了一个新的框架来解决在进行社会推荐时的社会不一致问题。等提出了动态位置图神经网络,这是一种考虑离线用户在活动中通过特定到达时间的限制构成 推荐模型,使用多边缘图来考虑用户访问历史的动态,通过用户图和 图的空间动态图之间的相关性来预测用户的下一个位置。虽然目前研究已经在推荐中将社交关系图结构进行引入,但是在社交图结构中仅仅将简单的注意力机制来确定权重,缺乏精确的对用户、和其他辅助信息复杂交互方法,没有分析图结构中的多种特征,因此现提出强化用户社交关系图,即考虑社交中邻居结点特征和 复杂结构特征,并它们进行合并,生成目标结点的潜在的特征,又对异质图进行语义方面处理。在最近,等提出了一种基于异构
7、图注意力网络的嵌入模型。通过构建用户兴趣点异构图,统一捕捉地理影响、社会关系和历史签到影响,并且使用基于 的模型来学习下一个要选择的 的类别权重,但是模型没有充分考虑 图结构邻居的数量趋于不平衡的问题,没有将时间和空间距离维度考虑进去,因此针对此问题,现提出了多场景角度考虑提出 邻居结点采样模块,充分利用图结构信息,包括时间和空间,提高了训练的效率和推荐的准确性。虽然在用户融合图结构方面取得很好的成就,但这些现有的 推荐方法通常都是存储整个用户 数据、历史行为序列以及提取相关特征来训练 模型,这要求数据都是集中式的存储和训练。也就是说,所有用户的数据和推荐模型都集中管理,推荐人的训练和预测都在
8、功能强大的推荐服务器上运行。然而,这种 推荐带来了 种实际问题,其一,为了快速和准确地响应客户端进行推荐,在服务器上需要存储和处理大量的数据,会占用大量的存储空间和消耗大量计算资源,在经济上和设备方面是有限的;其二,集中式 推荐依赖于通信的稳定性,网络质量和通信问题无法保证,会出现离线场景,尤其在偏远地区的场景下,这种缺点尤为显著;其三,与用户交互的数据,如用户 图是高度敏感的,由于它们不仅包含结点特征和标签,还包括图原始结构信息,因此可以通过如结点成员推断和边缘盗窃等方式对集中式存储进行攻击,将出现用户的隐私问题和数据泄露风险。例如,在位置推荐中,通过训练用于相似用户推荐的,可以通过预测判断
9、出用户之间存在的关联信息。另一个例子是,在新型冠状病毒肺炎()患者经过的位置图和社交图上训练的 来预测疾病的传播,可以被社区当作重要防控手段,但对手可能恢复用于训练的每个患者的属性和社会活动,从而造成了患者的信息泄露。在实际应用中,很难具有一个完全可信的服务器。于是,在这些隐私问题的介绍下,一个分布式多端兴趣点推荐方案被提出,这种方式可以更好地解决服务器不信任的问题和数据集中式存储等问题。关于数据隐私问题可以使用联邦学习方法,用户的数据可以存储在每个客户端,而只需要上传所需要的随机梯度下降(,)来更新服务器上的模型即可。对于联邦学习推荐系统,用户 交互被存储为本地客户端,客户端只上传梯度用来更
10、新用户 嵌入。此外,等提出了一个联邦学习框架,用于下一个 推荐。然而框架对于存储和计算来说仍然是资源密集型的,因为中央服务器负责收集和聚合本地训练的模型,以及需要将聚合的模型重新分发给所有用户。此外,所有用户共享相同的全局模型,忽科 学 技 术 与 工 程 ,()投稿网址:略了用户社交关系和兴趣的多样性,导致性能不理想。综上所述,传统的基于图神经网络的 推荐算法,没有全面地考虑用户交互的结点和边的共有特征信息并且没有结合具体的场景信息,仅仅通过传统的随机采样和均值聚合算法处理特征,挖掘图结构信息不完善,导致匹配度不精确,在稀疏数据中尤其明显;同时传统的基于差分隐私的联邦推荐分配的隐私预算具有不
11、灵活性和不可靠性。所以现提出基于图神经网络的兴趣点推荐的隐私保护框架(,)。该框架全面考虑用户的结点特征、复杂特征、签到次数、共有边等特征信息,之后通过多场景角度考虑,提出 邻居结点采样模块。对用户和兴趣点交互的异质图使用语义级别注意力机制聚合,同时将以上结构融合到一种新的 推荐范式基础上,提出可变动态梯度客户端差分隐私算法,对隐私预算进行自适应分配策略,提高 推荐的准确性的同时更高效地进行隐私保护,降低开销,增强实用性。相关工作原理.差分隐私差分隐私技术(,)是指在操作数据集时,可以保护数据集中被操作的个体记录的一种加密技术。保证了具备最大背景知识的攻击,敌手无法推断出已经发布模型中任何个体
12、信息。差分隐私技术在联邦学习中也存在广泛的研究,在对梯度或模型进行联邦化时,通过使用差分隐私技术来提供隐私保护。首先定义一个数据集 和仅相差一条记录的数据集,当敌手使用随机响应函数 对数据集分别进行查询时,对查询结果分别引入噪声进行干扰,如式()所示,使得最终输出的查询结果()与()概率相近。所以,尽管敌手拥有最大的背景知识,也不能根据查询结果推断出所相差的一条记录是否包含在 中,保护了 中的隐私问题。()()()式()中:为查询的数据集;为查询所使用的随机响应函数;()为将噪声 添加到查询响应的随机机制。定义 差分隐私。对于一个随机算法,()是 的所有可能查询输出结果的范围。如果算法 所作用
13、的相邻数据集 和 上输出任意子集 (),如果存在如下等式,则称算法 满足 差分隐私,表达式为()()()式()中:为隐私预算,是用来控制隐私保护的强度。值越小,作用在相邻两个数据集 和 上,则查询响应值()与()的概率分布越相似,说明此算法对隐私保护性越优秀。定义 本地化差分隐私(,)。传统的差分隐私是将多源的数据集中到一个可信的第三方,然后对计算结果添加噪音,实施差分隐私。但是这种可信的第第三方很难实现,因此就出现了本地差分隐私。本地差分隐私为了消除可信数据中心,在被第三方服务器收集之前,直接在每个用户所在的客户端的数据集上加入噪声,然后将加噪后的数据传到第三方服务器进行聚合操作,这样在发送
14、到第三方之前就已经实现了隐私保护。假设其中一个用户为,给定隐私算法,任意输入两条记录 和 若满足如下等式,则称为满足 本地化差分隐私,即()()().推荐场景下联邦学习在联邦学习中,客户端用户 保存本地数据集,所有的用户共享相同的模型。每个客户端会和推荐服务器 建立安全的通道,用户的个数为。具体的训练过程如下。步骤 用户 根据本地隐私数据集对模型 进行训练,计算得到梯度值。(,)()步骤 用户 将 上传到推荐服务器上。步骤 服务器 将聚合所有用户上传的梯度向量,采用的是加法聚合。()步骤 服务器 将聚合后的结果 回传给所有的客户端,并计算平均值,同时更新本地的模型。()式()中:为学习率。通过
15、一轮更新之后,用户通过判断本地模型的准确率是否满足要求,如果符合要求就不进行下一次训练,否则进行下一轮训练。.兴趣点领域相关概念定义 兴趣点。具有唯一标识的描述性的特定地点,一个 可以是一个学校、一个公交站。由兴趣点、经度和纬度的三元组表示(,)。定义 签到记录。一般由签到的用户,签到,()江欣俞,等:基于图神经网络的兴趣点推荐的隐私保护框架投稿网址:的兴趣点以及访问时间的四元组(,)组成,表示用户 在时间 访问签到了 ,表示用户 在 时刻截止时签到 的总次数,定义此记录为。定义 签到序列。由用户每次访问 签到的序列,以(,)有序序列表示。定义 图。用户的签到历史是用户访问过的 的序列,在用户
16、的签到历史中,构建 图 (,),其中 是图 中边的集合,表示距离的集合,表示 集合,如图 所示。边集 表示用户在访问 的 之后连续访问下一个 的 所形成的边,只要用户访问的两个 之间的时间间隔在指定的阈值范围内,则这两个 之间就存在一条连线,连线中的 代表两个 之间的距离。图 图.定义 用户 图。定义用户集合 ,和定义 点集合 ,构建一个二部图 (,),如图 所示,表示用户 和兴趣点 之间的交互信息,其中 是图中边的集合,表示用户 在签到历史中访问了 的 点,表示用户对 访问次数的集合,表示用户 对 访问的次数,表示用户总数,表示 总数。定义 用户用户图。通常被称为社交关系,通常用 (,)表示,如图 所示,描述用户的社交关系,和 都签到了至少一个相同位置,则将两个用户连接起来。其中 表示用户 和用户 之间相连接的边,则代表用户与用户之间关系的权重,表示用户 和用户 之间关联程度,值越大,说明用户与该用户的关系越大,去过的地点越相近(通过先前属性确定为重要的参照)。.图神经网络随着互联网计算能力的高速提升,现实世界中图 用户 图.图 用户用户图.的数据集通常用图来表示,如社交、金融或交通