结合注意力机制和图神经网络的CTR预估模型

资源描述

1、计算机与现代化JISUANJI YU XIANDAIHUA2023年第3期总第331期0引言在计算广告、搜索、排序等推荐任务中，点击率（CTR）预测是核心算法，直接影响着互联网公司最后的盈利。大多数CTR预估模型由2个核心组件构成：一个是嵌入层组件，它将原始的输入数据转换成低维稠密的嵌入向量；另外一个是特征学习组件，它用来学习有效的特征交叉组合并计算模型的最终输出。然而，之前的研究主要集中在特征学习组件的自动化设计，很少关注嵌入层组件。这是因为大部分研究者都是在理解图像的基础上进行算法设计，其中学习组件对模型性能非常重要，而输入组件则微不足道，因为图像像素已经是浮点形式。与图像领域不同的是大量

2、离散项（如产品、广告或视频）的推荐问题在工业环境中普遍存在，当类别特征作为输入时需要把one-hot编码的特征向量转为低维稠密向量，人工启发式选择嵌入维度会严重影响模型的准确性。基于此，本文借鉴AutoEmb1模型的思想，给出一个端到端的可微框架，该框架可以根据特征的受欢迎程度自动选择不同的嵌入维度，对于流行度高的物品特征嵌入选择大的维数，反之选择一个小的嵌入维数。在特征学习组件中，寻找原始特征的有效转换是结合注意力机制和图神经网络的CTR预估模型夏义春，李汪根，李豆豆，葛英奎，王志格（安徽师范大学计算机与信息学院，安徽芜湖 241002）文章编号：1006-2475（2023）03-002

3、9-09摘要：大多数CTR预测的算法都是将特征嵌入初始化为一个固定的维度，忽略了长尾物品特征的流行度不高。把它和头部物品的嵌入向量设置为相同长度会导致模型训练不平衡，影响最后的预测结果。基于此，本文首先使用一个端到端的可微框架，该框架可以根据特征的流行度自动选择不同的嵌入维度。其次，引入挤压激励网络机制和具有残差连接的多头自注意力机制，分别从不同角度动态地学习特征的重要性以及识别重要的特征组合，然后使用图神经网络代替传统内积和哈达玛积显式建模二阶特征交互。最后为了进一步提高性能，将DNN组件与浅层模型相结合形成深度模型，利用贝叶斯优化算法为深度模型选择一组超参数，避免复杂的调参过程，并且在2个

4、基准数据集上实验，结果验证模型的有效性。关键词：点击率预测；自动嵌入搜索；挤压激励网络；多头自注意力机制；图神经网络；贝叶斯优化中图分类号：TP391文献标志码：ADOI：10.3969/j.issn.1006-2475.2023.03.006CTR Prediction Model Combining Attention Mechanism and Graph Neural NetworkXIA Yi-chun，LI Wang-gen，LI Dou-dou，GE Ying-kui，WANG Zhi-ge（School of Computer and Information，Anhui Nor

5、mal University，Wuhu 241002，China)Abstract：Most CTR prediction algorithms initialize the feature embedding as a fixed dimension，ignoring the low popularity ofthe long tail feature.Setting it to the same length as the head object embedding vector will lead to unbalanced model training andaffect the fi

6、nal recommendation results.Based on this，this paper first uses an end-to-end differentiable framework，which canautomatically select different embedded dimensions according to the popularity of features.Secondly，this paper introducessqueeze excitation network mechanism and multi-head self-attention m

7、echanism with residual connection to dynamically learnthe importance of features and identify important feature combinations from different angles，and then uses graph neural networkto explicitly model the second-order feature interaction instead of traditional inner product and Hadamard product.Fina

8、lly，in order to further improve the performance，this paper combines the DNN component with the shallow model to form the depthmodel，uses the Bayesian optimization algorithm to select a set of super parameters for the depth model to avoid the complex parameter adjustment process，and the experimental

9、results on two benchmark datasets verify the effectiveness of the model.Key words：CTR prediction；automatic embedded search；squeeze excitation network；multi-head self-attention mechanism；graph neural network；Bayesian optimization收稿日期：2022-04-14；修回日期：2022-05-25基金项目：高校领军人才引进与培育计划项目（051619）作者简介：夏义春（1996

10、），男，安徽肥西人，硕士研究生，研究方向：推荐系统，计算广告，深度学习，E-mail：；李汪根（1973），男，安徽太湖人，教授，博士，研究方向：生物计算，智能计算，E-mail：；李豆豆（1996），男，安徽淮北人，硕士研究生，研究方向：图像处理，深度学习，E-mail：；葛英奎（1997），男，安徽马鞍人，硕士研究生，研究方向：推荐系统，深度学习，E-mail：；王志格（1997），男，安徽宣城人，硕士研究生，研究方向：推荐系统，深度学习，E-mail：。计算机与现代化2023年第3期一种常用提高模型的预测能力的手段。特征组合是最主要的特征转换类型，大量文献表明高阶特征组合对模型准确的预测

11、是至关重要的。例如，向一个8岁的男孩推荐魂斗罗游戏，三阶组合特征对预测是非常有用的。然而，寻找这种有意义的高阶组合特征很大程度上依赖于领域专家。此外，手工制作全部有意义的特征组合几乎是不可能的。因此为了对不同阶次的特征组合进行自动化建模，研究者们做出了许多探索。各种基于因子分解机2（FM）的模型被开发出来用于建模特征交互，并被证明对各种任务都是有效的3-7。随着深度学习在计算机视觉、自然语言处理等许多研究领域取得巨大成功，近年来提出了许多基于深度学习的CTR 模型。例如 FNN8、Wide&Deep9模型、注意因子分解机10（AFM）、DeepFM11、xDeepFM12等。本文在寻找交叉特征

12、的基础上，使用 SENet（Squeeze-and-Excitation Networks）注意力机制对嵌入向量加权得到特征的重要性，使用多头注意力机制得到新的特征表达，通过图神经网络学习二阶特征交互，最后经过几层全连接网络得到高阶非线性的特征交互并预测结果。本文提出一种新的模型 AE-Attention-GNNET，用于自动搜索不同特征域的嵌入维度，动态学习特征重要性和更加细致的二阶特征交互。考虑不同特征字段在推荐系统中受欢迎程度不同，模型嵌入层应该允许不同的嵌入维度。另外，不同的特征对于目标任务有不同的重要性，例如，当模型预测一个人的收入时，职业特征比爱好特征更为重要。考虑这一点，本文借

13、鉴 FiBiNET13模型引入挤压激励网络（SENet）14机制动态学习特征的权值。多头自注意力机制是Vaswani等人15提出来的一种基于普通注意力机制的变形，它减少了对外部信息的依赖，更擅长捕捉词向量之间的内部相关性。本文引入多头自注意力机制，建模不同特征域之间的相关性，得到线性加权后的组合特征。最后本文把特征字段之间的复杂交互转化为对特征图上的节点交互进行建模，通过一次 GRU 网络更新自己的状态得到二阶特征交互，比之前的内积、哈达玛积更加细粒地捕捉特征之间的组合。本文主要工作如下：1）提出一个端到端的可微框架，该框架可以根据不同特征域的受欢迎程度以线性加权的方法自动

14、选择不同的嵌入维度最后和目标CTR一起优化。2）结合SENet机制，抑制贡献少的特征，增强贡献多的特征，动态地学习特征的权值，并且使用带残差结构的多头自注意力机制，自注意力机制能够得到不同特征域的相关性，多头可以学习不同空间的交叉特征，残差结构则保留原始一阶特征。基于此，模型可以得到更高阶特征的非线性交互。3）使用图神经网络，用更灵活有效的方式显式建模二阶特征交互，利用贝叶斯优化算法给模型一组超参数组合，避免复杂的调优过程。4）在2个基准数据集上做多次实验，实验结果表明，AE-Attention-GNNET 的各项性能优于其他最先进的深度模型。1相关工作本章讨论确定特征嵌入维数的常用策略以及梳

15、理相关的CTR预估算法。1.1自动嵌入搜索算法大多数CTR预估算法都遵循着输入层-嵌入层-特征交叉学习层-预测层的模型结构，把重点放在特征交叉学习层，思考如何设计一种自动化建模高阶特征交互的算法。但是这样做法忽略了嵌入层的表达能力，因为在CTR预估中不同流行度的特征所需要的嵌入维数不同，对于那些高流行度的特征，更大的嵌入维数会有更好的预测效果。相反，对于那些低流行度的特征，更大的嵌入维数预测效果会变差。嵌入维数的大小一般根据经验值确定一个范围，然后不断尝试出合适的嵌入维数，但是这种做法很浪费时间和计算资源。目前学术界和业界常采用降维方法和监督学习方法合理地设计嵌入维数的大小。FM216模型对数

16、据集的特征字段进行PCA17降维，通过控制协方差矩阵的阈值得到不同特征域的嵌入维数。自从NAS18发表以来，以自动化的、数据驱动的方式设计神经网络的架构吸引了大量研究者的兴趣。比如AutoEmb 模型利用 darts算法构建一个控制器，为不同的特征字段选择合适的嵌入维数。谷歌NIS19论文提出了多尺度嵌入，对于同一个特征不同的item分配不同的嵌入维度。NIS模型在ENAS19策略的基础上设计了新的搜索空间，用来选择多尺度嵌入向量。FaceBook的MDE20模型提出了混合维（MD）嵌入层，其中特定对象的嵌入维数随该对象的流行度而变化，而不是保持固定的嵌入维数。1.2CTR预估浅层模型CTR预估模型中，最开始是逻辑回归21（LR）算法，它捕捉特征之间的线性关系，在工程上易于大规模并行化训练和部署。但是线性拟合缺少特征交叉，因此需要做大量的特征工程。因子分解机通过2个嵌入向量的内积建模二阶特征交叉，近些年许多基于FM的模型被提出。域因子分解机21（FFM）在FM的基础上引入了filed的概念，把相似的特征划分为一个域，对不同域各自建模，但带来了参数量过大的问题，模型容易过拟合。GBFM2

展开阅读全文

结合注意力机制和图神经网络的CTR预估模型_夏义春.pdf