1、主流机器学习方法识别车险欺诈效果的比较研究陈凯李斌杰 摘要 近年来,我国车险市场巨大的体量也催生了许多车险欺诈案件,然而传统的车险欺诈识别手段效率不佳,本文采用机器学习的方法,基于包含中国在内的四个数据集进行了实证分析,以比较六种主流机器学习方法对车险欺诈的预测表现以及预测表现的稳健性。本文对四个原始数据集进行数据分割,使原数据集分为训练集和测试集,训练集用于构建机器学习模型,测试集用于评估机器学习模型的效果,从而评估各机器学习方法的预测表现以及预测表现的稳定性。首先基于特征空间采用 SMOTE 采样法,使训练集中的欺诈样本数与非欺诈样本数达到平衡。之后采用 10 折交叉验证法选取最佳的参数组
2、合来确定机器学习中的最优调节参数,并采用 OC 曲线及曲线下方的面积 AUC 作为模型预测效果的评估标准,以避免主观选取截断点造成的影响。最终,研究发现极端梯度提升决策树模型和随机森林模型的预测表现以及预测表现的稳定性较好。关键词 汽车保险;机器学习;SMOTE 采样;OC 曲线 中图分类号 F840;TP181 文献标识码 A 文章编号 1004 3306(2022)12 0090 13DOI:10 13497/j cnki is 2022 12 006 作者简介 陈凯(通讯作者),北京大学经济学院副教授,E-mail:chen.kai ;李斌杰,北京大学经济学院硕士研究生。一、引言近年来,
3、我国车险市场巨大的体量也催生了许多车险欺诈案件。目前保险公司主要依靠查勘专家判断来识别车险欺诈,这种方法成本高、效率低,并不能很好地解决车险欺诈问题。随着机器学习方法的普及,各行各业已经开始运用机器学习方法做各种预测分析。保险公司也可以运用机器学习方法来识别车险欺诈,从而大大降低保险公司的费用支出。从理论层面来看,机器学习方法的种类繁多,不同的机器学习方法对不同问题和不同数据集的有效性不同。但是当前的理论研究大多仅基于单一数据集运用机器学习方法建立机器学习模型,来比较各种机器学习方法对车险欺诈识别的效果,所得结果的稳健性得不到保证。因此,本文将基于国内外四个数据集分别建立六个机器学习模型:Lo
4、gistic 回归、决策树(Decision Tree)、K 近邻(KNN,K NearestNeighbors)、支持向量机(SVM,Supporting Vector Machine)、随机森林(andom Forests)以及极端梯度提升决策树(Extreme Gradient Boosting Decision Tree)。我们将对比不同的机器学习模型在同一个数据集中表现的差异以及同一个机器学习模型在不同的数据集中表现的差异,通过这种交叉分析的方法,研究机器学习方法在车险欺诈识别中的应用价值。09主流机器学习方法识别车险欺诈效果的比较研究从现实层面来看,我国许多保险公司都在推动车险理赔
5、的线上化和智能化,如中国平安的“智能闪赔”、阳光保险的“阳光 E 赔”等。显然,车险理赔的线上化与智能化需要车险欺诈识别技术作为支撑,否则保险公司会因理赔审核不严而遭受亏损。同时,车险理赔的线上化将使保险公司获取更多保单持有人的数据,这十分有利于机器学习方法的实施。因此,本文在分析中也采用了 2017 年中国某保险公司的车险索赔数据集,来探究机器学习方法对车险欺诈识别的效果,尤其是在中国市场的效果,是具有现实意义的。目前车险欺诈的相关文献主要包括理论研究和实证研究。理论研究主要基于博弈论和信息不对称来探究保险欺诈形成的原因及可能的对策;实证研究则主要侧重于运用各种机器学习方法对保险欺诈进行识别
6、。保险欺诈属于道德风险的一种,而最早将道德风险这一概念引入经济学领域的学者是 Ar-row(1971),他用道德风险这一概念解释了投保人的欺诈行为,即投保人购买保险后会改变自身的行为方式以获得保险利益,如故意制造交通事故。Holmstrom(1979)以及 Spence 和 Zeckhauser(1971)分别研究了事前道德风险和事后道德风险,事前道德风险即投保人在有了保险作为保障后会倾向于放任自身的危险行为从而导致保险事故发生的可能性上升,事后道德风险即在保险事故发生后投保人可能会通过掩盖真相、夸大损失等手段获取更多的保险赔偿金。毛钦(2008)提出在信息不对称的环境下,投保人与保险人之间存
7、在博弈关系,并针对我国车险欺诈问题提出尽快建立健全激励制度的建议。陈翠霞(2014)同样基于博弈论分析车险欺诈行为,发现如果博弈进行的次数足够多,那么投保人和车险公司双方就会倾向于通过合作来获取长期的好处,并在此之上提出我国保险业需要建立消费者保险信誉体系。在实证研究方面,目前文献基本都是基于某一个数据集运用各种机器学习方法来搭建机器学习模型,以评估所搭建的模型识别车险欺诈的效果。例如,德国某保险公司公开了 1994 年至 1996 年的索赔数据,目标变量是一个二元变量,记录了索赔的两种状态 正常索赔、欺诈索赔。其中,6%的索赔是欺诈索赔,94%的索赔是正常索赔。Phua 等(2004)提出运
8、用机器学习方法识别车险欺诈时要特别注意数据不平衡问题,即欺诈索赔样本远小于正常索赔的问题。Xu 等(2011)使用了神经网络(Neural Net-work)来搭建机器学习模型;Badriyah 等(2018)使用了 K 近邻来搭建机器学习模型;徐徐等(2018)对比了卷积神经网络(CNN,Convolution Neural Network)、Logistic 回归模型、K 近邻、支持向量机的预测效果,发现卷积神经网络的预测效果最好。另外一个数据集是马萨诸塞州汽车保险局(AIB,Automobile Insur-ers Bureau)1993 年的车险索赔数据,目标变量是一个整数变量,取值范
9、围为整数 0 到 10,记录了索赔的可疑程度 0 为正常保单、10 为可疑程度最高的保单,数字越大可疑程度越大。Brockett 等(2003)运用了 PIDIT(Principal Component Analysis of elative to an Identified Distribution Unit)方法,达到了较好的分类效果,但该方法的成本较高。由于该数据集并非公开数据集,所以在 Brockett 等后运用该数据集进行的研究较少。Francis(2016)对该数据集进行了特征工程分析,删除了冗余变量,并生成了一个公开的模拟数据集供有需要的学者们研究,并用 PIDT 和随机森林聚类
10、(andom Forest Clustering)对该数据集进行了分析。李秀芳等(2019)使用了 Logistic 回归模型、支持向量机、决策树、K 近邻和朴素贝叶斯来搭建机器学习模型,并比较了 Bagging、andom Subspace 以及 andom Patches 三种 Bagging 方法改进基学习器的效果,发现 Bagging 决策树的表现最好;陈思迎(2019)使用了 K 近邻和 K 均值聚类算法(K means Clustering)来搭建机器学习模型,得到了较好的预测效果。总结来说,目前有学者比较过不同的机器学习方法识别车险欺诈的效果,这些研究都论证了其使用19保险研究2
11、022 年第12 期INSUANCE STUDIESNo.122022的机器学习方法对车险欺诈有较好的识别效果。然而,由于公开的车险欺诈数据集很少,目前已有的文献均仅基于单一的数据集进行实证,所以结论的稳健性并不能得到保证,即某个机器学习方法在一个数据集的预测表现很好但在另一个数据集的预测表现并不一定也很好。然而,在研究机器学习方法识别车险欺诈的效果时,结论的稳健性十分重要。如果结论不稳健,那么保险公司直接选用研究中表明预测效果最佳的机器学习方法来开展保险欺诈识别工作就不一定能达到最满意的预测效果。因此,本文分别基于四个数据集进行实证分析,以衡量六种主流机器学习方法对车险欺诈的识别效果和稳健性
12、。六种主流机器学习方法分别为:Logistic 回归、决策树、K 近邻、支持向量机、随机森林以及极端梯度提升决策树。其中 Logistic 回归是广义线性模型的代表,决策树是非距离方法的代表,K 近邻是样本学习的代表,支持向量机是非线性方法的代表,随机森林是决策树经过 andom Patches 集成后的模型,极端梯度提升决策树是决策树经过 XGBoost(Extreme Gradient Boosting)集成后的模型。除了前文提到的 1994 年至 1996 年德国某保险公司索赔数据集、1993 年美国马萨诸塞州汽车保险局(AIB)模拟索赔数据集以外,本文还选取了 2015 年美国七州交通
13、事故索赔数据集。这个数据集是 Bunty Shah 在kaggle 上发布的公开数据集,据我们所知,目前尚未有基于该数据集的学术研究。这些数据集覆盖了欧洲和美国不同州的情况,可以在研究机器学习方法稳健性时控制地域的变量。同时,为了更好地分析机器学习方法是否符合中国的情况,本文还加入了 2017 年中国某保险公司的车险索赔数据集。本文的主要创新在于对多个数据集而非单个数据集进行了实证检验,以比较不同的机器学习方法对车险欺诈的识别效果并且着重讨论识别效果的稳健性。如果仅基于单一的数据集进行实证,可能存在某个机器学习方法在一个数据集的预测表现很好但在另一个数据集的预测表现并不一定也很好的情况。而采用
14、不同数据集可以讨论在不同情景下,控制地区因素和数据质量因素,从而针对车险数据的机器学习方法的有效性和表现水平,提高结论稳定性。另外一个次要贡献是本文对两个较新的数据集进行了分析,得到的结果和之前相比也比较稳健。二、数据预处理本文所使用的数据集包括德国某保险公司索赔数据集、美国马萨诸塞州 AIB 模拟索赔数据集、美国七州交通事故索赔数据集以及中国某保险公司 2017 年的车险索赔数据集。首先,需要对这四个数据集分别进行数据预处理,包括数据描述、数据分割以及 SMOTE 采样。(一)数据描述1.德国某保险公司索赔数据集(以下简称“德国数据”)该数据集为德国某保险公司 1994 年至 1996 年的
15、索赔数据,包含 33 个变量(1 个目标变量和 32 个解释变量)和15420 条样本。其中,目标变量是一个二元变量,记录了索赔的两种状态 正常索赔、欺诈索赔。正常索赔和欺诈索赔各占 94%、6%。在 32 个解释变量中,为避免相似变量,重复删除 Policy-Type、AgeOfPolicyHolder、Year、PolicyNumber。此外,Make、DayOfWeekClaimed、Days.Policy.Accident、Days.Policy.Claim、AddressChange.Claim 以及 NumberOfCars 均为类别型变量且都含有样本数量过少的水平,对预测效果不利
16、,因此在建立机器学习模型前需要对样本过少的水平进行整合。2.美国马萨诸塞州 AIB 模拟索赔数据集(以下简称“美国 AIB 数据”)该数据集为 Louis A Francis(2016)基于原数据集生成的公开模拟数据集。目前已有许多学者基于该模拟数据集开展了相关研究。该数据集的原数据集为马萨诸塞州汽车保险局(AIB,Automobile Insur-29主流机器学习方法识别车险欺诈效果的比较研究ers Bureau)收集的该州1993 年的车险索赔数据,包含100 多个变量。经 Francis 对原数据集进行特征工程分析、删除冗余变量后,该模拟数据集仅包含 27 个变量(1 个目标变量和 26 个解释变量)和 1500 条样本。其中,目标变量是一个二元变量,记录了索赔的两种状态 正常索赔、欺诈嫌疑索赔。正常索赔和欺诈嫌疑索赔各占 69%、31%。在 26 个解释变量中,ID 记录了索赔编号,其提供的有效信息有限,因此删除。3.美国七州交通事故索赔数据集(以下简称“美国七州数据”)该数据集为 2015 年美国 7 个州的交通事故索赔数据集,由 Bunty Shah 在 kaggle 网上