1、第 37 卷第 1 期2023 年 2 月保险职业学院学报(双月刊)JOUNAL OF INSUANCE POFESSIONAL COLLEGE(Bimonthly)Vol.37No.1Feb 2023基于大数据挖掘的保险反欺诈工作存在的问题及改进建议吴倩(中国人寿保险股份有限公司 上海数据中心,上海 201201)摘要 随着新时期保险行业的迅猛发展,保险欺诈的案例数目也随之快速增长。为保障保险公司的正常运营,提升其反欺诈的能力,保险反欺诈领域亟需引入能够处理高维、高频、多尺度保险数据的大数据挖掘技术,从而保障保险业的正常发展,切实发挥保险制度社会功效的作用。本文从现有保险反欺诈工作的现状和存
2、在的问题入手,介绍目前最新的基于大数据挖掘技术的保险反欺诈方法的成效及不足,并提出建立健全保险数据的规范机制、挖掘区别保险欺诈的关键性因子、建立保险数据共享机制等建议。关键词 保险反欺诈;数据挖掘;高维复杂数据 中图分类号 F840323 文献标识码 A 文章编号 16731360(2023)01006703 AbstractWith the rapid development of the insurance industry,the behaviors of insurance fraud have al-so increased rapidly Especially in the era
3、 of insurance big data,insurance fraud is more difficult to accurately i-dentify and effectively detect In order to ensure the normal operation of insurance companies and improve theirantifraud ability,it is urgent to introduce big data mining technology that can deal with highdimensional,highfreque
4、ncy and multiscale characteristics in the field of insurance antifraud,so as to ensure the fairness andjustice of the insurance industry and give full play to the social efficacy of the insurance system Starting with theproblems existing in the current insurance antifraud work,this paper introduces
5、in detail the latest insuranceantifraud methods based on big data mining technology,and briefly comments on the relevant research contentand also give some suggestions,so as to pave the way for the followup insurance antifraud research Key wordsinsurance antifraud;data Mining;highdimensional complex
6、 data一、保险领域反欺诈问题的研究现状据 2020 年中国银行保险监督管理委员会发布的保险业发展报告,我国 2020 年实现的原保险保费收入合计已达到 4525 7 万亿元,同比增长61%,整体保费收入规模稳居世界第二1。随着我国保险行业的迅猛发展,保险业从高速增长向高质量发展转型势在必行。然而,频繁发生的保险欺诈案件及造成的损失已严重阻碍保险业的高质量发展,进而损害投保人的合法权益。现阶段,保险公司的保险反欺诈识别方法主要依赖人工核查和传统的统计方式,但随着参保人员规模的增大,保险欺诈的特点与形式呈现多样化,使得传统的保险反欺诈方式存在效率低、成本高、准确率低等问题。大数据挖掘技术与人工
7、智能的结合,使得开发出可靠、准确、自适应的保险反欺诈系统成为可能。(一)国外研究现状一般而言,保险欺诈识别的模型主要包括两种:统计回归分析模型和数据挖掘模型2。早期的保险反欺诈研究主要集中于 Logistic 回归。代表性的方法有 Steven 等人提出的 AAG 改进模型,利用多元选择模型用作估测欺诈识别的错误率3。随着数据挖掘技术的发展,越来越多的学者将数据挖掘相关技术引入保险反欺诈领域,比如 Sokol等4 借助数据挖掘技术对每一项记录在案的医疗76作者简介:吴倩(1990),女,江苏宜兴人,硕士研究生,中国人寿保险股份有限公司上海数据中心,中级工程师,研究方向:数据挖掘、规则挖掘。感谢
8、匿名审稿人的意见,文责自负。保险职业学院学报(双月刊)2023 年第 1 期服务基于特征进行保险欺诈问题的识别与预测,Hongxing He 等5 应用遗传算法和 K临近法来对健康医疗保险进行反欺诈识别研究等。(二)国内研究现状结合国际反欺诈经验,国内越来越多的学者从经济学领域、数据挖掘领域等角度开展保险反欺诈问题的综合分析与研究。比如,叶明华等6 从理论分析角度对保险欺诈行为的动机、成因、形式等方面进行了详细分析,并通过特征工程提炼出保险欺诈识别的关键决定性因子;李连友等7 提出了多种基于风险聚合策略的欺诈风险预测模型,为保险反欺诈工作提供了新思路;喻炜等8 针对保险团伙欺诈案例,提出了基于
9、广义的团伙相似度矩阵识别模型;闫春等9 结合集成学习模型,提出了基于随机森林和智能优化算法的机动车保险欺诈识别模型,并从实际案例角度分析了模型的优缺点。综合以上保险反欺诈现状分析,本文重点阐述现有大数据挖掘技术在新时代保险反欺诈领域存在的问题并提出建议,旨在为后续的保险反欺诈领域的发展作铺垫。二、现有保险行业反欺诈工作存在的问题为了能够切实防范保险欺诈风险,2022 年中国银保监会发布了保险行业反保险欺诈组织工作指引(试行),用于指导保险企业构建科学有效的反欺诈机制。然而,现有的保险反欺诈工作依旧难以应对复杂多变的保险欺诈行为,分析现有反欺诈机制,其主要问题体现在如下三方面:(一)现有反欺诈工
10、作依旧依赖传统的被动分散发现方式一般而言,保险欺诈案件大多数是通过举报人提供直接线索发现的,极少部分由保险公司主动抽查或核查人员核查发现。这一模式在现有的保险反欺诈系统中依旧是主流模式。然而,与之相对应的是,保险公司在承保过程中所收集的海量保险数据未能得到利用。这些大规模数据中蕴含着高价值的信息,如能够主动地挖掘并分析出隐含的关联关系,对于发现欺诈保单的相关线索至关重要。(二)风控模型缺少更新机制,难以应对多变、隐蔽的欺诈行为尽管目前保险公司及第三方企业已开发出多种反欺诈风控系统,如中华联合人寿反欺诈系统、基于图计算的保险智慧反欺诈系统、Argus 智能反欺诈平台、中保信全国车险反欺诈系统等,
11、但是,这一类系统中涉及的风控预测模型往往不具备动态更新的能力。在实际评估反欺诈风险时,由于保险欺诈过程中存在的欺骗性、多变性、隐藏性等特点,使得系统实际使用的效果不理想。(三)保险公司之间缺乏数据共享机制我国保险企业众多,保险企业间的竞争尤为激烈。特别是较为敏感的保单相关数据信息,更是各家保险公司最为核心的资产。因而,保险公司之间的数据共享机制存在天然的排斥特性,这就导致各家保险公司都在开发符合自身需求的保险反欺诈系统。然而,单凭一家公司并不能够有效抑制整体的保险欺诈行为。如何能够在保证保险公司自身敏感用户信息数据安全的同时,提升保险行业整体反欺诈能力,对于促进全国保险业健康可持续发展及社会诚
12、信体系建设尤为重要。三、大数据反欺诈的成效与不足截止到目前,大数据反欺诈在保险数据的清洗、特征工程构建以及模型构建等方面取得了显著的成效。(一)保险数据的清洗及结构化表征考虑到原始保险数据的非结构特点(如图片、文本、异常值、缺失值等),在使用数据挖掘算法之前,需要对原始保险数据启动清洗步骤10。然而,现有的大数据挖掘方法对特定保险数据的清洗缺乏统一的规范,比如医疗保险中的特定疾病数据等。因此,公司一般都会利用文本、图片数据等挖掘分析工具,对非结构化的原始数据进行转换操作,通过归一化完成对数据的清洗,从而为后续的数据特征分析及规律发现做准备。(二)结构化保险数据的特征工程构建构建统一结构化保险数
13、据的特征工程,主要的目的在于挖掘出能够有效反映特定欺诈行为的特征信息,从而更好地反映出当前保单的欺诈属性。欺诈特征工程一般可以从静态行为和动态行为两方面构建并发现欺诈特征,从而获取欺诈特征矩阵。当所处理的保险数据存在高维等特性时,也可通过经典维度约简等方式实现降维操作,从而提升后续建模的效率。常见的特征构造方法有分解类别法、交叉组合法;特征处理方法包括归一化、降维(PCA,LDA)等11。(三)保险反欺诈风控模型的构建及实例验证基于大数据挖掘的保险反欺诈模型,指通过手86第 37 卷吴倩:基于大数据挖掘的保险反欺诈工作存在的问题及改进建议动或自动分析保险欺诈的典型特征矩阵,针对保险数据的不均衡
14、、不完善、冲突等问题,借助数据清洗、特征工程、集成模型等方式构建保险欺诈识别模型,并可借助多折交叉验证的方式对建立的识别模型进行实例化可靠性验证。(四)关键特征分析及规律发现依据大数据保险案例验证和抽取欺诈特征可靠度指标,挖掘关键代表性欺诈行为特征数据库,可多层次多角度地进行案例分析,总结发现欺诈行为规律,并归纳出相应的反欺诈意见12,为建立一体化且具备泛化能力的保险反欺诈系统提供科学决策。由以上分析可以看出,利用大数据开展的保险反欺诈工作已逐步从传统的统计回归模型向基于人工智能、机器学习的智能数据挖掘方向转型13,并取得了显著成效。特别是随着保险大数据时代的到来,构建基于数据挖掘技术的保险反
15、欺诈模型更是大势所趋,但该工作目前尚存在多方面的问题,如原始保险数据异构程度高,导致直接使用的可能性较低;保险公司之间缺乏数据共享机制,导致保险反欺诈的通用模型难以建立;数据挖掘领域的专家往往不属于保险领域,针对保险大数据领域的专业级数据挖掘人才的培养也是当务之急。四、推进保险领域反欺诈工作的建议针对上述问题,提出基于大数据挖掘的保险反欺诈工作建议:(一)建立健全保险数据的规范机制现实中保险类型的多样化,决定了保险大数据的数据类型的多样化,直接对这些数据进行整合和一致化处理难度较高,异质特征极其明显。因而,保险公司应从源头(即保险订单的生成)开始,关注保险数据的格式及规范化,严格按照统一标准对
16、保险数据进行整理归纳,为提高数据的使用效率提供支持。(二)挖掘识别保险欺诈的关键性因子识别保险欺诈的准确率的高低,在一定程度上依赖欺诈行为的特征工程建立与关键性因子发现。只有依托高质量的数据特征工程,才能够为后续的保险欺诈识别模型的建立提供保障,进而提升保险数据的整体效率,提高识别算法的计算效率。(三)建立保险数据共享机制从实际角度看,保险反欺诈工作难以依赖独家保险公司来完成,因此,保险公司间应当建立一定范围内的数据共享机制,合力实现对保险欺诈行为的通用特征识别工程的建立与完善。考虑到保险数据的高保密性与商业价值,建议依托银保监会设立相应的第三方反欺诈识别预警系统,各家保险公司可以将异常数据自动上传到该预警系统进行分析,系统及时向公司反馈相应的预警信息,从而不断提升全行业的反欺诈能力。参考文献 1熊珈 新科技背景下我国商业健康保险反欺诈路径研究 J 保险职业学院学报,2022,36(3):6166 2黄立强,智青,刘洋,等医疗保险反欺诈中机器学习的应用发展 J 保险理论与实践,2021(3):136147 3Caudill S B,Ayuso M,Guillen MFraud dete