1、文章编号:1009-6094(2023)03-0651-08基于改进 XGBoost 的民航重点旅客风险评估方法*吴仁彪,刘洋,贾云飞,刘闪亮,乔晗(中国民航大学天津市智能信号与图像处理重点实验室,天津 300300)摘要:针对传统过采样方法导致的边际模糊及数据量增大的问题,提出了一种基于不平衡数据集的改进极限梯度提升(XGBoost)算法,并结合 JJATT 恐怖分子数据集构建民航重点旅客风险评估方法。样本在分类概率的基础上,根据焦点损失(Focal Loss,FL)函数重新平衡样本权重,通过网格搜索法确定最终模型。数据集测试结果表明,相较于多种传统方法,所提方法性能更好,准确率达到 90.
2、9%,F1值(F1-score)达到 90.9%。结果表明,在对民航重点旅客进行安检时,应对其国籍、出生地、学历、职业进行重点检查。关键 词:安 全 工 程;旅 客 风 险;风 险 分 级;不 平 衡 数 据集;XGBoost中图分类号:X949文献标志码:ADOI:10.13637/j issn 1009-6094.2021.2085*收稿日期:2021 11 23作者简介:吴仁彪,教授,博士,博士生导师,从事自适应信号处理、现代信号谱分析及其在雷达、卫星导航方面的应用研究,rbwu vip 。基金项目:天津市研究生科研创新项目(2020YJSS008)0引言随着经济发展和民众出行观念的转变
3、,民航客机逐渐成为更多人中、远距离出行的首选,因此随之而来的民航安检压力也在急速上升。2020 年,全国民航安检部门共检查旅客 4.11 亿人次,检查旅客托运行李 1.68 亿件次,查处各类安保事件 1 万余起1。中国民用航空局局长冯正霖提出建立“对安全隐患零容忍”的全方位排查整改的长效机制2。目前我国对于民航安检的策略以对“物”为主,即对旅客所携带的行李物品等进行重点检查,这种策略存在时间长、成本大等弊端,且对旅客本身的审查程度较低,存在危险人员不携带危险物品依然能采取恐怖行动的可能。因此“人”才是导致民航安检事件的关键性因素,旅客本身需要在安检阶段被重点关注。国外对于民航旅客风险评估起步较
4、早且较为成熟。1996 年,美国西北航空公司首先开发并部署了计算机辅助预检系统(Computer Assisted PassengerPrescreening System,CAPPS),该系统根据旅客订票信息定义算法进行危险分级3。Majeske 等4 使用贝叶斯决策模型分别从政府和旅客角度分析如何提高安检效率。Laura 等5 提出了一种可以提高总体安保水平和服务效率的自动筛选旅客风险等级的系统,并优化了旅客分类策略。Zheng 等6 提出了一种深度学习的旅客配置文件分析方法,根据旅客的背景信息对其进行风险分类。由于相关隐私和人权的限制,目前我国关于民航旅客风险评估的研究与将民航旅客风险评
5、估应用于机场安检系统中的案例都相对较少。2017 年,赵振武等7 首先提出民航旅客分级的概念,并从乘客满意度的角度出发,通过计算分析得出了基于旅客分类的机场安检系统。李杰等8 融合民航信息系统与公安信息系统建立了安检分类辅助决策系统,并提出了一种国内民航机场分类安检的方法。冯文刚等9 通过构建涵盖多个指标的民航旅客风险等级评估方法,提出了基于深度神经网络的民航旅客风险等级评价方法,定量探究了安全管理措施对于民航旅客风险演化的影响。研究表明,一般犯罪及恐怖活动往往围绕几个重点成员或中心枢纽成员来组织行动,这些人员维持着恐怖组织的长期存在10。这些成员的危险性通常更大,造成的影响更为恶劣。传统的民
6、航旅客风险评估往往只将旅客分为重点人员与非重点人员。这种分类方式的颗粒较大,并不能够准确地识别出恐怖组织的首领等核心成员。若能对重点旅客进一步地细化分类,识别出重点旅客中的极高风险人员,就能够帮助机场安检人员针对不同风险程度的旅客采取相应的措施。在实际情况中,低风险重点人员是占据绝大多数的,恐怖分子等高风险人员的数量相较于低风险重点人员数量是微乎其微的。反映在数据集中,则体现为类别不平衡,这就会对学习过程造成困扰11 14。一般用于解决类别不平衡的方法有“过采样”“欠采样”及“阈值移动”等方法15 17。一般来说,民航重点旅客数据集的规模较小,“欠采样”这种减少多数类样本的数量至与少数类样本一
7、致的方法首先被排除。张妍18 采用经典的“过采样”方法egular-SMOTE(SyntheticMinorityOver-samplingTechnique)算法,在许多数据集中能一定程度上缓解类别不平衡的问题,但当面对高维且分布复杂的数据集时,其对分类、模型的提升仍十分有限。另外,由于民航重点旅客数据集的类别极度不平衡,采156第 23 卷第 3 期2023 年 3 月安全 与 环 境 学 报Journal of Safety and EnvironmentVol 23No 3Mar,2023取 SMOTE 方法进行过采样会为数据集带来较多的“噪声”样本,从而给训练效果带来影响。针对上述问
8、题,本文提出一种改进的 XGBoost算法,使用焦点损失(Focal Loss,FL)作为损失函数增大难分样本的权重并减小易分样本的权重,从而增加模型对于危险重点人员的敏感度,结合跨国恐怖主义数据库 JJATT 中的恐怖分子数据集构建民航重点旅客风险评估方法,以期对重点人员的风险评估提供一定的技术支持。1数据来源及 XGBoost 模型1.1数据来源JJATT 数据集由首席研究员斯科特阿特兰(Scott Atran)在美国空军科学研究办公室(Air Forceesearch Laboratory,AFOS)的赞助下收集,其中包含了2 000 多条来自20 多个国家或地区的恐怖分子的个人信息数据
9、。数据集描述了恐怖分子个人的各种背景信息、组织和行为特征。其中人口统计数据包含社会经济和特定国家/地区的信息。组织数据描述了个人在各自小组中所获得的职位。该数据集共 50 个特征,现截取原始数据中前 10 条、前 10 列特征作为展示,见图 1。图 1JJATT 数据集部分数据Fig 1Part of the JJATT dataset1.2XGBoost 模型介绍极端梯度提升(XGBoost)是 Chen 等19 于 2016年提出的一个分布式大规模机器学习库,该算法采取树模型作为基学习器,提供缓存访问模式、数据压缩和分片来构建可扩展的树提升系统。XGBoost 利用泰勒公式将损失函数的选取
10、范围由传统梯度提升决策树(Gradient Boosting Decision Tree,GBDT)的均方误差扩展到任意二阶可导的凸函数,另外将叶子节点的个数及 L2 正则项作为正则化参数加入目标函数中减少过拟合程度以控制模型的复杂度。XGBoost 的目标函数为O=ni=1l(yi,yi(t 1)+ft(xi)+Kk=1(ft)(1)式中O 为目标函数;yi为第 i 个目标的实际值;yi为第 i 个目标的预测值;l(yi,yi)为损失函数;n 为样本容量;K 为迭代次数;为树模型的复杂度;xi为输入值;ft(xi)为第 t 轮训练时所构造的树模型。将损失函数利用泰勒公式展开到二阶,现假定损失
11、函数为均方误差,则目标函数为O ni=1 wjiIjgi+12w2j(iIjhi+)+iT(2)式中gi表示样本 xi的一阶梯度;hi表示样本 xi的二阶梯度;wj表示第 j 个节点的输出值;i和 是为了防止模型过拟合的正则化系数;Ij是第 j 个叶节点中的样本子集;T 为树模型的个数。上式的求解即是模型的训练过程,可以看出损失函数是关于 wj的二次函数,可以找到第 t 轮训练时最佳的 w*j及其目标函数的最优解 L(t),即w*j=iIjgi/(iIjhi+)(3)L(t)=12rj=1(iIjgi)2/(iIjhi+)+iT(4)在衡量一棵树结构的好坏上,XGBoost 采取了精确贪心(e
12、xact greedy)算法,当树分裂节点时,通过计算下式来判断。Ga=LL+L LF(5)式中LL为若分裂左节点得到的损失值,L为若分裂右节点得到的损失值,LF为若不分裂节点通过父节点得到的损失值。如果 Ga大于 0,则继续分裂该节点,否则停止分裂。2基于改进 XGBoost 的民航背景旅客评估算法由于民航重点旅客数据集的不平衡性,在实践256Vol 23No 3安全 与 环 境 学 报第 23 卷第 3 期中无法准确地识别出潜藏在众多低风险旅客中的高风险旅客。然而,识别出高风险旅客是民航旅客风险评估的重中之重。因此,为了突出这些少量困难样本,引入 FL作为损失函数来提升模型对困难样本的识别
13、能力。FL20 是一种主要应用于目标检测方向、使用改进的交叉熵来解决一步目标检测器中前景与背景类别不均衡问题的算法。当样本集有两个分布,其中p(x)表示真实分布,q(x)表示非真实分布,此时系统的熵称为交叉熵,即H(x)=ni1p(xi)log2q(xi)(6)对于二分类问题来说,交叉熵定义为CE(P,y)=log2(P)y=1 log2(1 P)y 1(7)式中P 表示 y=1 的概率,定义Pt=Py=11 Py 1(8)那么交叉熵可以表示为CE(P,y)=CE(Pt)=log2(Pt)(9)FL在交叉熵的基础上增加了平衡参数 t及调节参数 公式如下。FL(Pt)=t(1 Pt)log2(P
14、t)(10)现在将其运用在多分类情况下,由于 XGBoost中多分类所采用的默认分类器为 softmax,第 i 个节点 zi的分类概率 Pt由 softmax 求出Pt(zi)=einj=1ej(11)由式(10)可以看出,FL的值取决于两个参数:样本被分类的概率 Pt及超参数。当这个样本难以被分类,即当 Pt较小时,此时的损失值趋近于 1,此时该样本对于损失值的贡献较大,那么下一次进行迭代时,模型能够更加关注这个样本;当这个样本较容易被分类,即当 Pt较大时,此时的损失值趋近于0,再经过参数 的缩小,该样本对于损失值的贡献较小,那么进行下一次迭代时,模型对这个样本的关注度就偏小。这样便平衡
15、了难分样本与易分样本的损失值,从而改善了数据的不平衡性。此外超参数 影响的是对于1 Pt的缩放程度。不同 对于 FL的影响程度见图 2。由于 XGBoost 将损失函数泰勒展开到二阶导数,现将其推广至多分类的 FL中,需要对其求一阶导数得L(i)zj|j=1,K=(1 Pi)Pilog2(Pi)(1 Pi)+1i=j (1 Pi)1Pilog2(Pi)(1 Pi)(pj)i j(12)对上式一阶导数再求一次,得到二阶导数为图 2不同 对于 FL的影响程度Fig 2Degree of influence of different on FL2L(i)2zj|j=1,K=2(1 Pi)1pilog
16、2(Pi)+(1 Pi)log2(Pi)+(2+1)(1 Pi)Pi(1 Pi)i=jPi(Pj)2(1 Pi)1 Pilog(Pi)(1 Pi)+log2(Pi)+2Pj(1 Pj)(1 Pi)1Pilog2(Pi)(1 Pi)i j(13)3试验过程与训练结果3.1数据集预处理首先删除明显不相关的特征并提取能够描述个人背景信息的特征,删去缺失率超过 70%的特征及没有标签的样本,部分特征的缺失率见表 1。其次需要对 JJATT 数据集进行特征筛选,皮尔森相关系数(Pearson correlation)可以计算两两特征的相关性,对特征进行优化筛选,具体计算公式如下。(X,Y)=E(X X)(Y Y)XY=E(X X)(Y Y)ni=1(Xi X)2ni=1(Yi Y)2(14)3562023 年 3 月吴仁彪,等:基于改进 XGBoost 的民航重点旅客风险评估方法Mar,2023式中Xi与 Yi分别表示特征 X 与特征 Y 的第 i 个样本,X与 Y分别表示特征 X 与特征 Y 的标准差。表 1JJATT 部分特征缺失率Table 1Partial feature missing