电子商务水军检测的新方法：...准化采样的多关系图神经网络

资源描述

1、0352022年第6期/第39卷/总第210期电子商务水军检测的新方法：自适应邻域精准化采样的多关系图神经网络A New Method for Detecting E-Commerce Spammer:Multi-relationship Graph Neural Network Using Precise Sampling and Adaptive Neighborhood徐瑞卿张志旺孙宏亮XU Ruiqing ZHANG Zhiwang SUN Hongliang（南京财经大学信息工程学院，南京，210046）摘要：目的/意义旨在从图神经网络的视角提出一种新的水军检测算法，为保障电子商

2、务环境健康、商家信誉、市场公平提供支持。研究设计/方法结合多关系图神经网络，引入新型采样策略，设计出一种基于精准化采样和自适应邻域的多关系神经网络的电子商务反欺诈算法，并将这种新算法应用于真实世界 Yelp 和 Amazon 的数据集上进行效果检验。结论/发现与过去的反欺诈方法对比发现：这一新方法在缓解类别不平衡带来的影响时有显著的效果。创新/价值该方法提供了一种新的抽样策略，为有效解决欺诈检测研究中面临的海量用户中仅有少量欺诈用户导致的类别不平衡问题，提供了一种新的思路。关键词：欺诈检测；类别不平衡；精准化采样；自适应邻域；多关系图中图分类号：G203DOI：10.13366/j.di

3、k.2022.06.035引用本文：徐瑞卿,张志旺,孙宏亮.电子商务水军检测的新方法：自适应邻域精准化采样的多关系图神经网络 J.图书情报知识,2022,39（6）：35-44.（Xu Ruiqing,Zhang Zhiwang,Sun Hongliang.A New Method for Detecting E-Commerce Spammer:Multi-relationship Graph Neural Network Using Precise Sampling and Adaptive NeighborhoodJ.Documentation,Information&Knowledge

4、,2022,39（6）：35-44.）Abstract:Purpose/Significance To ensure the health of the e-commerce environment,business reputation and market fairness,this paper aims to propose a new spammer detection algorithm from the perspective of graph neural network.Design/Methodology Combined with the multiple relation

5、al neural network,we introduce a new sampling strategy,and design a new method of multiple relationship graph neural network based on precise sampling and adaptive neighborhood.Then this new approach is used on the real world Yelp and Amazon datasets to test the effect.Findings/Conclusion Compared w

6、ith the existing fraud detection methods,this new algorithm,has a significant effect in mitigating the impact of category imbalance.Originality/Value This method introduces a new sampling strategy to solve the category imbalance problem caused by a small number of fraudulent users among a large numb

7、er of benign users in fraud detection research.Keywords:Fraud detection;Category imbalance;Precise sampling;Adaptive neighborhood;Multiple relationship graph 基金项目本文系国家自然科学基金项目“数据驱动的电商信誉评分机制和虚假群组检测模型研究”（71901115）的研究成果之一。（This is an outcome of the project Study of a Data-Driven Rating Mechanism of E-

8、commerce Reputation against Faking Rating Groups（71901115）supported by National Natural Science Foundation of China.）通讯作者孙宏亮（ORCID：0000-0002-0895-0743），博士，讲师，研究方向：图神经网络，Email:。（Correspondence should be addressed to SUN Hongliang,Email:,ORCID:0000-0002-0895-0743）作者简介徐瑞卿（ORCID：0000-0001-5560-9356），硕

9、士研究生，研究方向：图神经网络，Email:;张志旺（ORCID：0000-0002-1060-5797），博士，教授，研究方向：稀疏高维数据的机器学习，Email:。1引言随着互联网应用的发展，欺诈检测是一项至关重要的技术，有着广阔的前景，在安全1、金融2、医疗3和审查管理4等领域有许多具备影响力的应用。例如，网络商铺通过购买水军刷好评，来夸大自己店铺的声誉，或者是通过恶意评论来抹黑竞争对手的评价5。在金融行业中，有欺诈的借贷者通过伪造良好信誉形象，或者和高信誉的人产生关联，来提高自己的信誉，进行欺诈。如今，欺诈检测技术早已应用到诸如淘宝、京东等电子商务平台，但水军也在提高欺诈能力，欺诈检测

10、的精确度仍需要进一步提升。在过去已经出现了许多用于检测多维点集合中欺诈者的技术6。随着图数据变得无处不在，图神经网络（GNN）技术快速发展，基于图的欺诈检测7受到了关注。从本质上讲，基于图的欺诈检测的基本假设是，用户和欺诈者在购买产品或发布评论时有丰富的行为交互，这种交互可以表示为类似于图的数据，为欺诈检测提供有效的多方面信息。图卷积网络（GCN）的核心是通过将节点特征传递电子商务水军检测的新方法:自适应邻域精准化采样的多关系图神经网络A New Method for Detecting E-Commerce Spammer:Multi-relationship Graph Neural Ne

11、twork Using Precise Sampling and Adaptive Neighborhood036给相邻节点来操作图结构上的各种聚合函数；每个节点聚集其邻居的特征向量，结合其自身的特征，计算更新为新的特征向量表示。电子商务中的水军欺诈检测问题可以看成是图上的节点分类问题，因此GCN可被用于异常检测并且逐渐成为一种有效且常用的手段。最开始的基于GNN的欺诈检测工作仅在狭窄的范围内应用，而忽略了欺诈者的伪装行为，伪装有以下两种类型。（1）特征伪装：聪明的欺诈者可以调整自己的行为，在评论中添加特殊字符（所谓的恶意用户），或者使用深层语言生成模型来掩盖明显的可疑结果8。这有助于绕过基于

12、特征的检测器，以往简单的评分信誉系统渐渐失去优势。（2）关系伪装：水军用户在在线社交网络上积极进行意见欺诈，他们可以调查辩护人使用的图表，并调整他们的行为以减轻猜疑。这些狡猾的欺诈者通过连接到许多良性实体（例如，发布定期评论或连接到信誉良好的用户）来伪装自己9。随着图深度学习技术的兴起，将图神经网络应用于欺诈检测的研究层出不穷。遗憾的是，对于新兴的欺诈节点的伪装行为，目前并没有太好的检测方案，普通的方法对于欺诈节点的检测准确率较低。除了欺诈节点会有伪装行为，电商欺诈检测任务还存在欺诈节点不平衡的问题。在欺诈检测问题中，我们会将用户节点分成两大类，一个是正常用户，一个是欺诈用户，正常用户占多数，

13、欺诈用户只占少数部分，因此两种类别的占比分配不平衡。在机器学习中，样本类别不平衡会影响神经网络模型学习的精度，因此这种节点类别的不平衡会影响欺诈检测任务中对欺诈节点检测的精确性。在来自Yelp的真实世界评论数据集YelpChi中，14.5%的评论是恶意用户的评论，而其他评论被视为推荐评论10；在阿里巴巴集团的真实金融数据集中，只有0.5%的用户是违约者，无法偿还从金融平台借来的信用债务11。因此，基于图的欺诈检测算法常常存在类不平衡问题，并且表现不佳，特别是对于少数但更重要的欺诈者。同时，专门研究类不平衡问题的图神经网络算法还没有得到充分的研究。针对上述问题,本文提出了一种基于精准化采样自适应

14、邻域的多关系图神经网络PS-GNN（Multi Graph Neural Network Based on Precise Sampling from Adaptive Neighborhood），针对类别不平衡问题，我们引入精准化采样策略，采样后的节点的类别不平衡情况得到缓解；为了应对伪装行为，我们结合多关系神经网络的聚合机制，先对各个关系下各节点信息作嵌入表达，再对各关系作关系间的聚合。该方法在两个真实世界数据集Yelp和Amazon上表现很好，对比目前主流的方法在准确性上提升了0.06%-4.73%。2欺诈检测相关研究现有的欺诈检测模型大多数都基于图神经网络方法。图神经网络（GNN）的进

15、步使多种领域的有效表示学习成为可能，包括生物信息学、化学信息学、社会网络、自然语言处理12、社会事件、推荐系统13、时空交通14、计算机视觉和物理学，其中图形主要是表示。GNN模型被证明能够在大量数据集（引文网络15、生化网络16、社交网络、知识图、商品网络、API调用网络等）的不同任务上达到性能目标，如节点分类、节点聚类、链接预测、图分类17等。异构图在现实世界系统中无处不在。图通常由具有多种类型的节点和节点之间的多关系边组成。例如，在Yelp恶意用户数据中，存在异构节点（例如，业务、评论、用户等）和关系（例如，由同一用户发布，在同一产品下具有相同的星级，以及在两次评论之间的同一月份发布的同

16、一产品）。现有的GNN迭代聚合机制尚未仔细考虑语义关系的多样性和所提出模型的可用性。同质GNN如GraphSAGE18、GCN19、GAT20、GIN21忽略或简化了实际网络中节点和边的多样性和复杂性，不足以表示数据的异质性。为了解决上述问题，Michael Schlichtkrull22 等人提出了多关系GNN，在多关系GNN下，模型先将多关系拆分成一个个单关系，在各个单关系下作节点嵌入表示，最后汇总聚合为多关系。近年来，研究人员致力于解决传统的基于特征的监督学习环境中的类别失衡问题，主要分为两个方向，即重新采样和重新加权方法：重新采样方法通过对少数类进行过采样或对多数类进行欠采样来平衡示例数量；重新加权方法通过对成本敏感的调整或基于元学习的方法将不同的权重分配给不同的类别或甚至不同的样本。为了解决图上类不平衡问题，Huang等23提出了DR-GCN,该方法包括类条件对抗正则化其和分布对齐正则化器，但不能扩展到大型图。专题/Special Topic人工智能驱动下的信息管理Information Management Driven by Artificial Intelligenc

展开阅读全文

电子商务水军检测的新方法：...准化采样的多关系图神经网络_徐瑞卿.pdf