1、收稿日期:20211221第 40 卷第 2 期计算机仿真2023 年 2 月文章编号:10069348(2023)02026505改进强化学习的 AI 远程终端用户身份识别仿真魏雨东1,张瑞瑞2(1 电子科技大学成都学院,四川 成都 611731;2 四川农业大学,四川 成都 611800)摘要:受限于 AI 技术以及远程智能终端网络条件的复杂性,终端用户的网页浏览行为跟踪过程易产生冗余数据,用户身份识别难度较大。为此,提出基于强化学习的 AI 远程终端用户身份识别方法。从解锁行为、操作行为、通信行为等方面判断远程终端用户行为规律,在客户端中通过用户 ID、访问页面地址、页面标题等属性定义用
2、户终端浏览行为。将浏览信息传输至中心服务器并录入终端数据库内,采集完整终端用户数据。通过小波阈值方法消除冗余信息,根据强化学习的奖励持续调节方法,提取 AI 远程终端用户行为数据集,计算用户身份特征与行为特征间的耦合关系,得到身份识别结果。仿真结果表明,所提方法能够快速准确地识别目标用户身份,保障了用户数据安全,为其提供更可靠的 AI 远程操作环境。关键词:强化学习;人工智能;远程终端;用户身份识别;数据采集中图分类号:TP391文献标识码:BAI emote End User Identification Simulation Based onImproved einforcement Le
3、arningWEI Yudong1,ZHANG uirui2(1 Chengdu College,University of Electronic Science and Technology of China,Chengdu Sichuan 611731,China;2 Sichuan Agricultural University,Chengdu Sichuan 611800,China;ABSTACT:Due to the complexity of AI technology and the network conditions of remote intelligent termin
4、als,it iseasy to generate redundant data in the process of web browsing behavior tracking Therefore,a method of identifyingAI remote terminal users is proposed based on reinforcement learning Firstly,we judged the behavior law of remoteterminal users from the aspects of unlocking behavior,operation
5、behavior and communication behavior,and then de-fined the browsing behavior of user terminals through user ID,web page address,web page title and other attributes inthe client After that,we transmitted the browsing information to the central server and put it into the terminal data-base Moreover,we
6、collected complete enduser data Furthermore,we used the wavelet threshold method to eliminateredundant information According to the incentive adjustment method based on reinforcement learning,we extractedthe behavior data set of AI remote terminal users,and calculated the coupling relationship betwe
7、en user identity char-acteristics and behavior characteristics Finally,we got the recognition result Simulation results show that theproposed method can identify target users quickly and accurately and ensure the security of user data,thus providing amore reliable AI environmentKEYWODS:Strengthen le
8、arning;Artificial intelligence;emote terminal;User identification;Data acquisition1引言云计算与互联网的迅猛发展背景下,AI 远程终端的应用数量与日俱增1,已经成为网络远程操作的关键性技术,且绝大多数用户也将个人隐私数据保存在终端内,远程终端用户身份安全也成为了相关领域研究人员关注的热点2。身份识别技术是保证用户数据隐私安全的重要技术,但目前的远程终端身份识别拥有易丢失、易伪造等缺陷3,针对该问题,该领域学者对该问题进行了深入研究。胡宏宇等人4 提出了基于一维卷积神经网络的身份识别方法。采集不同条件下的状态数据集
9、,构建出一维卷积神经网络身份识别模型,利用 Adam 算法、L2 正则化等方法改562进模型性能。但由于该方法涉及了大量数据运算步骤,占据较多系统资源。张梦菲等人5 提出了一种基于动机感知的用户识别算法。引入用户行为动机感知策略,初次匹配阶段采用启发式规则分类用户数据,实时研究用户访问动机,根据用户行为相异数矩阵,完成用户身份识别。但由于该方法没有考虑用户数据动态变化问题,导致得到的用户身份识别结果准确度不高。为进一步解决上述已有方法的应用弊端,提出了一种基于强化学习的 AI 远程终端用户身份识别方法。强化学习因其探索学习能力成为了机器学习领域应用最广泛的技术之一6,是实现人工智能灵活运用的核
10、心步骤。分析用户终端行为类别,利用客户端采集用户身份数据,使用小波阈值法过滤冗余数据,通过强化学习中的 QLearning 学习法实现高精度 AI 远程终端用户身份识别,保证用户数据安全。2远程终端用户行为种类划分为准确识别终端用户身份,首先深入研究用户终端行为,用户终端行为不但数量庞大,且行为特征呈多样化趋势,依照用户操作过程中可能具备的习惯,把用户行为特征划分成如下几类:1)解锁行为用户操作 AI 远程终端的首个步骤就是解锁,当前的解锁方式通常为指纹、人脸及密码。应用较多的为指纹与密码,不同用户的行为习惯也各不相等。此类特征对评估用户合法性极为重要,譬如恶意用户入侵远程终端后,使用暴力破译
11、获得终端解锁密码,则可以通过多次使用密码登录的状况来判断该用户为恶意用户。与此同时,解锁行为在不同时段的频率也不相同7,正常状态下有比较显著的规律,譬如周一至周五,白天解锁频率会比周末多,假如此时段终端解锁量较少,则当前用户很大概率为恶意用户。2)网络行为用户按照自身生活作息,使用网络也呈现特定规律。休息时不会过多登录远程终端,无法产生较多网络使用量,IP地址比较固定。倘若休息期间恶意用户入侵云端数据,会产生大量流量,此时就能评估用户身份是否合法。3)操作行为用户使用远程终端时,某个软件被点击的数量、应用时间均呈现出用户的操作习惯,若出现某种与日常行为不匹配的情况,极有可能是攻击者获得终端权限
12、造成的。4)通信行为通信行为涵盖终端通话与信息传输行为,为确保用户隐私,本文仅统计使用次数,不牵涉通信者个人隐私。信息传输行为包含极大不确定性8,目前诸多网络广告均会通过信息进行数据推送,不是用户主动产生的行为。3AI 远程终端用户身份数据采集明确远程终端用户行为种类后,需全面采集用户身份数据,为后续用户身份识别任务提供可靠支持。AI 远程终端数据采集共有两种方式:服务器端采集、客户端采集。服务器端日志分析是当前使用次数最多的用户身份数据采集模式9,利用 Web 服务器日志文件内的超文本传输协议统计用户访问数据。不同日志格式略有差异,但多数被划分为日常格式与拓展格式。日常格式涵盖用户 ID、服
13、务器 IP 地址等数据,服务器日志格式详细信息如表 1 所示。拓展格式不但涵盖日常格式的字段,还具备浏览器版本、操作系统等必备数据。表 1服务器日志格式名称内容定义日期页面请求日期,涵盖时区、日历与时间客户端 IP客户端主机 IP 地址用户名用户名称字节传输与接收的字节数量服务器服务器名称、IP 地址与服务端口请求统一资源定位系统查找状态成功、失败、错误等标识服务代码用户请求的服务名称消耗时间浏览结束所用时长协议版本传输协议版本用户代理服务提供者参照页上一页用户身份数据采集的难点为既要采集终端实时信息,还不能影响远程终端稳定运行。倘若使用服务器端数据采集策略,会占用服务器较多系统资源10,影响
14、用户操作体验。客户端数据采集模式很好地避开上述缺陷,能及时采集用户身份信息,并汇总最新的终端网络状态数据。用户在终端的浏览行为可采用一组属性来描述,涵盖用户 ID、访问页面地址、页面标题等,通过此种策略,用户身份都能通过用户访问表内的记录来表示,将用户浏览操作定义成:InforUser=IP,Cookie,url,title,starTm,ter min alTm,readTm,state,lastUrl(1)式中,IP 代表访问 IP 地址,Cookie 是浏览器,url 表示服务器访问页面网址,title 表示服务网站界面标题,starTm 是浏览初始时间,ter min alTm 是浏览
15、终止时间,readTm 是浏览停留时间,state 为页面状态数据,lastUrl 是上一个页面地址。通过式(1)就能得到用户唯一标识信息,阐明用户使用远程终端的具体经过,得到用户浏览行为与相关身份信息,将信息传输至中心服务器,并录入终端数据库,实现用户身份数据采集全过程。4强化学习下 AI 远程终端用户身份识别4.1用户身份数据预处理根据采集的用户身份数据,本节通过小波阈值去噪手段662进行数据预处理11,保证数据直观性与完整性。假设初始数据为 a(n),被噪声干扰后的数据是 b(n),则将噪声模型表示为b(n)=a(n)+c(n)(2)其中,c(n)为噪声因子,为噪声强度。倘若 c(n)为
16、高斯白噪声,且 值为 1,小波去噪的目标就是从含噪数据 b(n)中剔除噪声 c(n),恢复至初始数据 a(n)。分析可知,数据通过小波变换后,噪声的小波指数幅值会伴随小波分解尺度的增多而快速降低,但有效数据小波指数的幅值没有明显改变。小波阈值去噪就是挑选恰当的阈值对小波指数采取阈值处理,将小于此阈值的小波指数判定为噪声相对的小波系数,设定为 0,保存大于此阈值的小波指数,将其看作有效信号相对的小波指数。小波阈值去噪流程为:挑选一个小波基对数据采取 N 层小波分解,利用恰当阈值与阈值函数分解第一层至第 N 层的高频指数,保存第 N 层小波分解的全部低频指数,利用保存的小波指数重构用户身份数据。实际计算中,对数据的小波分解多数使用离散小波变换,执行离散小波变换最可靠的为 Mallat 方法,将该方法下小波分解公式记作dAj,k=ng(n 2k)cAji,n(3)dBj,k=nl(n 2k)cAji,n(4)其中,dAj,k、dBj,k均为 j 尺度下的展开指数,dAj,k为信号 a(n)在 j 尺度中的低频部分小波指数,dBj,k为信号 a(n)在 j 尺度中的高频部分小波指数,g()、l