1、 研究与开发 基于电信大数据的 5G 网络海量用户复访行为预测模型 孙玉娣(江苏经贸职业技术学院数字商务学院,江苏 南京 211168)摘 要:5G 网络中的用户会产生大量的访问数据,导致用户复访行为难以精准预测,因此提出基于电信大数据的 5G 网络海量用户复访行为预测模型。从电信大数据中提取用户上网历史行为特征数据,构建数据集。引入多阶加权马尔可夫链模型,通过计算各阶自相关系数,得到模型权重值,计算模型的统计量。经过分析后得到各阶步长的马尔可夫氏链一步转移概率矩阵,从而实现对 5G 网络海量用户复访行为的精准预测。实验结果表明,该模型拥有最低的均值误差和标准差,以及最高的精度、查全率、查准率
2、、F1 指标,可证明该方法在预测用户复访行为方面有着非常明显的优势。关键词:电信大数据;用户复访行为预测;多阶加权马尔可夫链模型;一步转移概率矩阵;自相关系数 中图分类号:TP357 文献标志码:A doi:10.11959/j.issn.10000801.2023026 A prediction model of massive 5G network users revisit behavior based on telecom big data SUN Yudi School of Digital Commerce,Jiangsu Vocational Institute of Comme
3、rce,Nanjing 211168,China Abstract:Users in 5G networks will generate a large amount of access data,which makes it difficult to accurately predict users revisit behavior.Therefore,a prediction model of massive 5G network users revisit behavior based on telecom big data was proposed.The users historic
4、al online behavior characteristic data was extracted from the tele-com big data to build a data set.Multi order weighted Markov chain model was introduced.The model weight value was obtained by calculating the autocorrelation coefficient of each order,and the statistics of the model were calcu-lated
5、.After analysis,the one-step transition probability matrix of Markov chain with each step size was obtained,so as to accurately predict the revisit behavior of massive users in 5G network.The experimental results show that the proposed model has the lowest mean error and standard deviation,as well a
6、s the highest accuracy,recall,precision and F1 indicators,which can prove that the proposed method has a very obvious advantage in predicting users revisit behavior.Key words:telecom big data,prediction of users revisit behavior,multi order weighted Markov chain model,one step transition probability
7、 matrix,autocorrelation coefficient 收稿日期:20221228;修回日期:20230207 基金项目:2021 年江苏高校“青蓝工程”优秀教学团队项目;江苏经贸职业技术学院“领军人才”资助项目 Foundation Items:“Qing Lan Project”in Jiangsu Universities in 2021,“Leading Talents”Program of Jiangsu Vocational Institute of Commerce 研究与开发 158 0 引言 随着 5G 电信网络迅速发展,人们可以通过各种各样的网站浏览新闻、下
8、载数据以及购买商品,在方便生活的同时丰富了知识储备。这一系列操作必然会产生海量的网络数据,利用相关算法从这些数据中挖掘出有用的信息,并对用户未来可能访问的网站和购买的商品进行预测,已经成为一项十分热门的研究内容。针对可能复访或者复购的用户,根据其先前访问的历史和偏好进行针对性的推荐,可以在一定程度上提高用户的购买欲望。用户的浏览、操作、访问等历史行为数据都以日志文件的形式存储在数据库中,如何利用这些行为数据分析用户是否会复访,对于网络平台的可持续发展具有十分重要的意义。文献1将深度神经网络算法与不用正则化方法联合起来,通过建立不同的分组,根据一定的数据特征对数据集进行复访行为的预测;文献2在用
9、户行为序列的基础上实现用户点击预测。按照交互时间对用户历史行为进行排序,得到用户历史行为序列;将词嵌入模型引入深度因子分解机(deep factorization machine,DeepFM)模型,对用户历史行为序列进行自适应学习,得到用户的兴趣列表,捕捉用户的兴趣变化,从而实现预测。上述两种方法已无法适应当前的 5G 大数据网络环境,因此,本文提出了一种基于电信大数据的 5G 网络海量用户复访行为预测模型。首先,从服务器节点中提取用户的浏览数据、行为数据、操作数据以及属性数据等各类信息构建 5G 电信网络数据集;然后,构建多阶加权马尔可夫链模型,并对模型的转移矩阵和初始概率向量进行计算;最
10、后,根据各阶步长的自相关系数计算权重值,分析权重值后得到各阶步长的马尔可夫链一步转移概率矩阵,实现对 5G 网络用户复访行为的精准预测。在实验中,将本文模型与其他方法进行预测性能对比,结果表明本文模型在多个方面均展现出了明显优势,预测均值误差、标准差始终低于其他两种方法,而预测精度则大大高于其他两种方法。1 5G 网络用户复访行为预测 1.1 建立 5G 电信网络数据集 在进行用户复访行为预测之前,需要建立 5G电信网络数据集3,为了确保用户行为数据的精准性和实时性,在 5G 电信网络中选取若干个服务器节点,将采集装置部署在这些节点上进行数据采集。采集内容包含用户浏览数据、用户属性数据、用户访
11、问行为数据4、用户访问深度数据等几大类数据,5G 电信网络采集数据解析见表 1。5G 电信网络数据的采集频率5设定为0.2 次/s,根据采集信息种类的不同,将数据分别存储在30 个数据库中,其中包含 280 多个字段以及若干个扩展字段。本文采集的数据来自真实网站的公开数据库,数据表示用户访问一次页面的所有浏览、操作行为,可以真实、有效地反映用户的行为特点。本文数据采集的时间段为 2020 年 8 月 2021 年6 月,其中包含3 786 个用户ID 和38 468 次页面完整浏览记录。用 D 表示 5G 电信网络数据集,S表示训练集,T 表示测试集。将 2020 年8 月2021 年 6 月
12、的数据按照每两个月为一个单表 1 5G 电信网络采集数据解析 数据类型 具体内容 数据来源 用户浏览数据 用户访问的页面总数、页面的用户访问量 用户行为分析日志 用户属性数据 用户账号、密码、单位、IP 地址、操作系统、终端 5G 网络服务器日志 用户访问行为数据 用户访问页面的频率、时间间隔、访问次数、停留时间以及页面被访问的平均次数 5G 网络服务器日志 用户访问深度数据 页面跳出率、用户访问页面的设备和方式 5G 网络服务器日志 159 电信科学 2023 年第 2 期 元的形式进行整合,共得到 5 个单元,作为数据集 D。将上述所有用户数据的 70%提取出来,作为训练集S,剩下的 30
13、%则作为测试集T。利用后两个月的用户复访行为6对前两个月的数据进行标记,然后对总的结果进行平均,完成数据集的构建,5G 电信网络数据集构建过程如图 1 所示。1.2 用户复访行为预测模型 1.2.1 多阶加权马尔可夫链模型 由于电信大数据具有用户数量大、用户产生的数据量大、用户数据多样等诸多特点,在对其进行分析处理时常常出现效率低、难度大等问题。为此,引入马尔可夫链模型7-9,对 5G 电信网络用户进行复访行为预测。马尔可夫链模型针对用户的上网行为做出了以下假设:用户上网浏览的过程是一个随机过程,即齐次的离散马尔可夫链,因此可以将用户上网行为构成的特征集合看作离散随机变量X10的值域,也就是说
14、,用户上网过程构成了X的取值序列,且序列具有马尔可夫性。根据上述假设构建马尔可夫链模型,以三元组,MX=A11-13的形式对马尔可夫链模型进行描述,其中,X的值域为12,nx xx,nx对应于用户的行为状态,也可被看作马尔可夫链模型当前的行为状态;A 代表转移概率矩阵,矩阵中的任意项()1ijtjtipXx Xx-=都可以用来描述状态xi向状态xj转移的概率;表示马尔可夫链模型的初始状态分布14-15,分布中的项用()01ttpP Xx=表示,即:()1112112122221212 jnjnijiiijinnnnjnnppppppppppppppppp=A(1)()()12,tnpp pp=
15、(2)根据用户历史行为特征数据,整理出连续两个小时内出现用户上网行为的概率值pij(前一段时间用户行为在i区范围内,之后则位于j区范围内),深入分析后可得到一步转移概率矩阵为()1ijp=P。1ijijnijjp=NN且满足条件111,2,nijjpin=(),其中,ijN 表示用户访问行为特征向量。那么,一步转移概率矩阵表达式为:图 1 5G 电信网络数据集构建过程 研究与开发 160 1kk=PP(3)其中,k表示矩阵维度。将()T12()(),(),()ntp tp tp t=p看作t时刻下用户上网行为的绝对概率向量16-17,其中,()np t表示t时刻下用户上网行为位于n区的绝对概率
16、。在式(3)的基础上,进一步求取1t+时刻下用户上网行为的绝对概率向量18-19:1(1)()()kkttt+=ppPpP(4)那 么,在 已 知 初 始 概 率 向 量()T12(0)(0),(0),(0)nppp=p的情况下,就可以根据式(3)得到经过时间t后预测用户是否会复访的多阶加权马尔可夫链模型:1()(0)(0)ttt=ppPpP(5)综上所述,只要已知马尔可夫链模型的初始概率向量,就可以实现对任何时间下用户的复访概率以及复访网络区间的预测。1.2.2 用户复访行为预测(1)从电信大数据中提取出用户上网历史行为特征数据,并对各阶自相关系数kr20-21和规范自相关系数kw进行计算:()()()12kiiikixxxkxrxx=-+-=-(6)1kkmkkrwr=(7)其中,x表示马尔可夫链模型的状态均值,m表示根据实际预测需求计算得到的模型最大阶数。对马尔可夫链模型的各阶自相关系数做规范化处理22,不同模型阶数下的kr与kw见表2。表 2 不同模型阶数下的kr和kw 模型阶数 kr kw 1 0.739 8 0.399 2 2 0.532 6 0.287 4 3 0.373