1、第 49卷 第 2期2023年 2月Computer Engineering 计算机工程基于域内特征间相似性的点击率预估优化雷李想1,2,武志昊1,2,4,刘钰1,2,4,周子站3,4(1.北京交通大学 计算机与信息技术学院,北京 100044;2.北京交通大学 网络科学与智能系统研究所,北京 100044;3.中国民航信息网络股份有限公司,北京 101318;4.民航旅客服务智能化应用技术重点实验室,北京 101318)摘要:基于深度学习的点击率预估模型多数通过建模各个域的特征之间的交互关系提升预估准确率。特征嵌入向量对模型效果具有重要影响,而现有的 CTR 模型中不同特征的嵌入向量学习过程
2、相互独立,且由于特征长尾分布导致大部分低频特征不能学习到较好的向量表示,严重影响模型的预测效果。基于域内特征间存在隐含的相似性,提出两种分别基于特征间共现概率和游走概率的相似度定义和对应的相似性图构建方法,并给出结合剪枝策略的广度优先遍历算法实现相似特征的高效计算。在此基础上,基于域内特征相似性图,设计一种嵌入生成器,对于低频特征,在域内特征相似性图上通过图神经网络聚合与其相似的特征信息,生成新的特征嵌入,作为预处理过程对特征嵌入向量进行数据增强,提升嵌入向量的表示学习质量。在公开数据集 Criteo、Avazu 上的实验结果表明,该方法明显提升点击率预估模型的预测准确率,其中对代表性点击率预
3、估模型 xDeepFM 和 AutoInt,AUC 指标分别提升了 0.007和 0.008,LogLoss则下降了 0.009和 0.006,证明了嵌入生成模型的有效性。关键词:点击率预估;稀疏特征;特征嵌入;特征相似性;图神经网络开放科学(资源服务)标志码(OSID):中文引用格式:雷李想,武志昊,刘钰,等.基于域内特征间相似性的点击率预估优化 J.计算机工程,2023,49(2):238-245.英文引用格式:LEI L X,WU Z H,LIU Y,et al.Click-through rate prediction and optimization based on intra-f
4、ield features similarity J.Computer Engineering,2023,49(2):238-245.Click-Through Rate Prediction and Optimization Based on Intra-Field Features SimilarityLEI Lixiang1,2,WU Zhihao1,2,4,LIU Yu1,2,4,ZHOU Zizhan3,4(1.School of Computer and Information Technology,Beijing Jiaotong University,Beijing 10004
5、4,China;2.Institute of Network Science and Intelligent System,Beijing Jiaotong University,Beijing 100044,China;3.TravelSky Technology Limited,Beijing 101318,China;4.Key Laboratory of Intelligent Application Technology for Civil Aviation Passenger Services,Beijing 101318,China)【Abstract】There exist n
6、umerous deep learning-based Click-Through Rate(CTR)models;however,most of them improve prediction accuracy by modeling feature interaction between different fields.The feature embedding vectors have a significant impact on model performance;existing CTR models independently learn the embedding vecto
7、rs of different features in a field.Consequently,most low-frequency features cannot attain sufficiently good embeddings because of the long-tail feature distribution,which seriously affects model accuracy.Noticing that implicit similarity exists between features of the same field,this study proposes
8、 a two intra-field feature similarity based on co-occurrence probability and walk probability,respectively.Moreover,the proposed method develops the corresponding similarity graph construction method and designs a breadth first traversal algorithm combined with pruning strategy to efficiently calcul
9、ate similar features.Based on the intra-field feature similarity graph,an embedding generator is also proposed.For low-frequency features,information of similar features is aggregated on the similarity graph through a graph neural network.This data augmentation method is used as a preprocessing step
10、 to improve the learning quality of feature embedding vectors.Extensive experiments conducted on the public data sets Criteo and Avazu demonstrate that the proposed method improves the prediction accuracy of several classical CTR models.Regarding the representative CTR models xDeepFM and AutoInt,the
11、 AUC is increased by 0.007 and 0.008,respectively,while the LogLoss is decreased by 0.009 and 0.006,respectively,which proves the effectiveness of the embedding generator.【Key words】Click-Through Rate(CTR)prediction;sparse feature;feature embedding;feature similarity;graph neural networkDOI:10.19678
12、/j.issn.1000-3428.0064164基金项目:国家自然科学基金(61603028);中国民航信息网络股份有限公司和民航旅客服务智能化应用技术重点实验室基金项目(K20L00070)。作者简介:雷李想(1997),男,硕士研究生,主研方向为数据挖掘;武志昊,副教授、博士;刘钰,讲师、博士;周子站(通信作者),工程师、硕士。收稿日期:2022-03-14 修回日期:2022-04-23 Email:开发研究与工程应用文章编号:1000-3428(2023)02-0238-08 文献标志码:A 中图分类号:TP391第 49卷 第 2期雷李想,武志昊,刘钰,等:基于域内特征间相似性的点
13、击率预估优化0概述 自 2020年以来,在线广告1业务已达到 1 000亿美元,收入以每年超过 15%的速度增长,在线广告业务 是 互 联 网 企 业 收 入 的 重 要 来 源 之 一。点 击 率(Click-Through Rate,CTR)预估2在在线广告行业中至关重要,其主要目标是在正确的环境中为正确的用户提供正确的广告,点击率预估效果的提升能够给企业带来巨大的收益。因此,如何准确有效地预测点击率已引起学术界和产业界的关注。早期使用线性模型建模点击概率,为每个特征分配一个可学习的权重,但该方法无法建模特征间的交互关系。因子分解机(Factorization Machine,FM)3为每
14、个特征分配了一个低维的稠密向量即嵌入4,通过两个向量的内积建模特征间的交互关系,此后多数点击率预模型采用了为每个特征分配一个嵌入的做法,区别在于如何利用特征的嵌入建立特征交互。尽管大量基于嵌入的点击率预估方法5被提出,但多数方法只关注如何设计建立特征间交互关系的模型,较少有关注特征的嵌入是否得到了较好的更新。而在实际数据集中,由于特征分布的长尾效应6,域内的大量特征出现次数极少,而少量的特征的出现次数极多,导致大量的特征嵌入没有得到较好的更新。文献 7 和文献 8 为新出现的商品在ID域生成即使在少量样本数据下仍可更新较好的初始嵌入,但该工作只针对 ID 域,无法解决一般域上的稀疏性问题。造成
15、特征嵌入学习不充分的本质原因是:直接根据特征取出特征对应的嵌入,这也是现有点击率预估模型的一般做法。该做法的隐含假设是特征间相互独立。但实际上特征间存在相似性,以城市域为例,某些小城市出现次数较少,例如临平,其嵌入训练不充分,但临平与杭州相邻,不论是气候或居民习惯都与杭州相似,若它能够有效地利用杭州的嵌入,则能够提升模型的预测效果。为解决上述问题,本文提出两种特征相似度的定义,并利用基于特征相似度的域内特征相似性图建模域内特征的相似性。在域内特征相似性图的基础上,设计基于域内特征相似性的嵌入生成器,该生成器为出现次数较少的特征利用与其相似的特征嵌入生成了新的嵌入,作为预处理过程对特征嵌入向量进
16、行数据增强,新的嵌入与原嵌入维度一致,即可直接作为一般点击率预估模型的输入。1相关工作 1.1点击率预估点击率预估的输入由在不同域上取到的特征值组成,以商品点击行为预测任务为例,商品产地、商品类别属于域,而商品产地中具体的中国、日本、美国等称作特征。每个域下有多个特征,域分为离散域和连续域,离散域内有有限个特征,连续域的特征为连续的数值。用向量x表示模型的输入,向量x由在不同域上的特征向量xi拼接而成,用Fi(i=1,2,T)表示第i个域,其中T是域的个数。若域Fi是离散域,在该域取到特征fi,a,则xi是一个 one-hot向量,在特征fi,a对应的位置为1,其余位置为0,xi的长度等于域Fi中的特征总数。若第i个域是连续域,则xi是该连续特征值。点击率预估的结果用y表示,y=1表示点击,否则y=0。点击率预估任务的目标是获得输出点击概率y?的映射函数fw(x),其中,y?0,1,w表示函数的参数。1.2稀疏特征问题稀疏特征指域中出现次数极少的特征,该问题导致对应的特征嵌入无法得到较好的更新,而该现象在大型数据集中十分普遍。以 Criteo 数据集为例,图 1所示为 Criteo数据