基于GBDT-LR和信息量模型耦合的滑坡易发性评价

资源描述

1、第卷第期年月水土保持通报，收稿日期：修回日期：资助项目：安徽省重点研究与开发计划项目“典型地质灾害天地一体化协同监测关键技术研究”（）；中央高校基本科研业务费专（）；安徽省自然科学资助项目（）第一作者：董张玉（），男（汉族），安徽省安庆市人，博士，教授，硕士生导师，主要从事高分遥感空间信息处理及其应用。：。基于和信息量模型耦合的滑坡易发性评价董张玉，张晋，彭鹏，王燕，杨智，安森合肥工业大学计算机与信息学院，安徽合肥；工业安全与应急技术安徽省重点实验室，安徽合肥；智能互联系统安徽省实验室，安徽合肥；安徽省地质调查院（安徽省地质科学研究所），安徽合肥摘要：目的探

2、索准确、快速的滑坡易发性区划方法，为区域安全监测提供参考，为政府治理滑坡灾害提供科学依据。方法以安徽省池州市贵池区为研究区域，采用梯度提升决策树逻辑回归（）和信息量（）模型耦合的方法，实现区域滑坡易发性评价。该方法通过对原样本地学习，组合产生新的模拟样本，从而增强易发性评价模型对滑坡的拟合能力；采用算法解决样本数据不对称的问题。选用软件划分的斜坡单元作为最小评价单元，选取坡度、坡向、地形曲率、剖面曲率、平面曲率、地形湿度指数（）、地形起伏度、归一化植被指数（）、距断裂距离和距水系距离总计个评价因子。分别从频率比、滑坡灾害点及隐患点密度、曲线个方面对构建的滑坡易发性模型进行评价。结果试验结

3、果表明：耦合模型分别比，模型的高易发区频率比所占比例提升约，高易发区滑坡灾害点及隐患点密度分别提升约，精度提升约，。结论从检验指标综合来看，耦合模型的精度均高于单一模型，所提出耦合模型精度又高于耦合模型，为滑坡易发性评价提供了一种有效的、新型的评价方法。关键词：滑坡易发性；信息量；逻辑回归；安徽省池州市文献标识码：文章编号：（）中图分类号：文献参数：董张玉，张晋，彭鹏，等基于和信息量模型耦合的滑坡易发性评价水土保持通报，（）：；，（）：，.，；.，；.，；.（），：，（）（），：，（），（），：，（），：；（）；滑坡、崩塌和泥石流是中国典型的种地质灾害，并且中国是世界上受滑坡影响最严重的

4、国家之一，滑坡作为最常见的地质灾害类型，其特点是分布范围广，发生频率高，移动速度快，破坏性大等。滑坡易发性评价是滑坡预测研究方面的重点，通过研究区域的遥感数据，提取滑坡各个方面（地形地貌、地层岩性、水文等）的影响因子，定量分析影响因子权重，进而预测滑坡在研究区域的空间分布和发生概率，从而为管理部门开展滑坡防治工作提供一定的数据支撑，提前对滑坡发生可能性较大的县镇村庄做好预防措施，减少人员和财产损失，提高滑坡地质灾害的治理效率。滑坡易发性评价的关键问题在于评价模型的选取，评价模型选取的合理与否，直接影响最终滑坡易发性评价的准确性。针对此问题，国内外学者在进行滑坡易发性评价时选取了各种各样的模型。

5、目前，国内外学者通常采用逻辑回归、信息量、层次分析、支持向量机、机器学习、深度学习等模型的研究方法。例如，国内学者，罗路广等采用逻辑回归和折交叉验证法，对九寨沟地区进行滑坡易发性评价和因子重要性进行排序；许英姿等采用技术和信息量模型，对广西花岗岩分布区进行滑坡易发性评价；申怀飞等采用层次分析法与信息量相结合的方法，对甘肃省进行滑坡易发性评价；徐胜华等采用熵指数、支持向量机再结合算法的方法，对陕西省进行滑坡易发生评价；黄发明等采用半监督卡方自交互侦测决策树和半监督反向传播神经网络，对江西省南康区进行滑坡易发性评价；王世宝等采用深度学习中的卷积神经网络，对川藏铁

6、路康定理塘段进行滑坡易发性评价，并与人工神经进行对比分析；国外学者，等采用频率比、信息量、逻辑回归、随机森林和多层感知机模型，对土耳其的西瓦斯市进行滑坡敏感性预测；采用层次分析法和加权线性组合法相结合的方法，对越南北部罗江上游流域进行滑坡易发性评价；等以支持向量机为基础，对三峡大坝秭归巴东段进行滑坡易发性评价，并对比分析了深度学习及支持向量机在不同核函数情况下的评价结果；等采用深度学习模型，对印度喜马拉雅山进行滑坡敏感性建模。总结得出，基于斜坡单元的滑坡易发性评价一般步骤是先提取研究区的评价因子，再对评价因子进行分级，最后确定合适的模型。在滑坡易发性评价中，由于致灾原因的复杂性，单独使用

7、信息量模型相当于默认各影响因子对滑坡影响的权重相等，影响因子之间的差异性被屏蔽。而逻辑回归模型容易理解、训练速度快、不需要对评价因子进行缩放、可以得到各个影响因子权重，可以弥补信息量模型的不足。因此，当前滑坡易发性评价中，将信息量模型和逻辑回归模型相结合的方式得到了广泛应用，但是又引入了新的问题：由于逻辑回归的局限性，通过逻辑回归对影响因子赋予权重的方法，只对线性模型具有较好的拟合性，对非线性模型拟合能力较差，即逻辑回归只是对样本数据进行表层分析，无法深入挖掘出影响因子的非线性特征。然而，在滑坡发育的实际过程中，受多种地形地貌、地质等因子影响，因子之间的逻辑关系十分复杂，仅靠信息量和逻辑回归模

8、型简单相结合的方式，很难揭示出其内在的关系。为了解决这个问题，可以在信息量（）和逻辑回归（）结合的过程中加入梯度提升决策树（），因为可以完成特征从低维度到高维度的转换成，实则就是将滑坡样本从低维特征转换成高维特征，这样就可以将数据中的非线性特水土保持通报第卷征转换成线性特征，再将转换后的结果输入到中进行拟合，理论上将会得到更好滑坡预测效果。基于上述想法，论文以池州市贵池区为研究区域，结合研究区域滑坡发育的特点，综合考虑前人研究成果，最终确定个评价因子，基于信息量模型（）、梯度提升决策树逻辑回归（）算法构建滑坡易发性评价模型，采用算法解决滑坡样本的不对称问题，

9、将信息量结果从低维度转换成高维度，再使用进行拟合。通过频率比、滑坡灾害点及隐患点密度和曲线对评价模型进行评估，最终得到贵池区易发性区划，并结合实际情况分析所制成的滑坡易发性评价结果的合理性。以期为贵池区滑坡发生的可能性提供参考，为政府治理滑坡灾害提供科学的参考依据。研究区概况与数据来源研究区概况研究区域为位于安徽省南部的贵池区，介于东经，北纬之间，全区面积约。北接长江，南至黄山、九华山，东北、西北分别与铜陵、安庆毗邻，西南、东南分别与本市东至县、石台县和青阳县相接。贵池区属北亚热带湿润性季风气候区，气候温顺，降雨量适宜，光照充裕，四季分明，地表径流顺畅，水源发达；贵池区地处皖南山地与

10、沿江丘陵平原过渡地带，其东南部多为山地，中部以丘陵为主，西北部为平原，整个地势自东南向西北倾斜。九华山西延余脉蜿蜒至贵池区东南，山岭纵横，峰峦绵延，主要山峰海拔高程多在，最高峰金家山海拔。数据来源本文研究贵池区滑坡易发性评价的主要数据为、断裂、归一化植被指数（）、水系以及滑坡点矢量数据。、断裂、滑坡点数据均来源于当地有关部门，其中分辨率为，滑坡点数据包含个已经发生的历史滑坡点及个滑坡灾害隐患点；是使用多光谱卫星影像提取得到；水系数据来源于网站的开源矢量数据；试验中的数据采集时间均在年月。由于数据来源不同，为了尽可能减少试验误差，在试验之前将所有数据进行预处理，预处理包括：地理坐

11、标系变换、投影变换、图像配准、重采样、栅格矢量化、矢量栅格化等、几何校正等。评价单元的划分在中，采用斜坡单元自动划分方法，通过不断调试，最终将研究区域划分为个斜坡单元。研究方法滑坡易发性评价模型的构建信息量（）模型滑坡的发生受不同大小、不同性质的评价因子的影响，因此，利用信息量模型评价滑坡易发性的思路是：根据已有评价因子的实际测量值，与滑坡数据结合，将评价因子转化成反映实际滑坡的信息量值。滑坡易发性评价是否准确与评价过程中获取的信息数量和质量密切相关，在实际试验过程中，常用滑坡样本频率计算信息量，如式（）所示：（，）（）式中：表示评价单元中总信息量；表示评级因子数量；表示当前评价单元内所

12、取的评价因子等级；表示滑坡事件；表示研究区域总面积；表示研究区域内含有评价因子的总面积；表示研究区域内滑坡总面积；表示研究区域内含有评价因子的滑坡总面积。信息量作为滑坡评价的综合性指标，其值越大，滑坡发生的可能性越大，反之，发生滑坡的可能性越小。逻辑回归（）模型逻辑回归（）模型是线性回归模型的扩展，也是经典的多元统计方法。逻辑回归模型被广泛应用于滑坡易发性评价建模中，可以较准确地揭示二元因变量（表示发生滑坡，表示未发生滑坡）和自变量（评价因子）之间的逻辑关系。其函数表达式如下：（）（）（）式中：代表逻辑回归的常数项；代表逻辑回归的回归系数；代表滑坡发生概率，的值越接近，表明该斜坡单元发生滑坡

13、的可能性越大，否则，表明发生滑坡的可能性越小。梯度提升决策树（）模型（）是提升算法的一种，其原理是将应用到决策树回归算法迭代的过程中，它主要包括三部分：回归树、梯度迭代、缩减。利用原始数据生成第一棵树后，以选取当前最小的损函数为目标生成第二棵树，依次迭代，直至损失函数残差达到预定值或达到最大迭代次数。算法过程如下：第期董张玉等：基于和信息量模型耦合的滑坡易发性评价假设输入训练数据集（，），（，）（，），；损失函数，（）；输出回归树?（）。（）初始化。（）（，）（）（）对，计算。（）对，计算，（）（）（）（）（）（）对拟合一个回归树，得到第棵树的叶结点区域，。（）对，计算，（）（）

14、（）表示落入当前节点的样本集合，更新（）（）（）（）（）得到回归树。?（）（）（）（）与模型耦合鉴于模型的低复杂度和优秀的并行化处理能力的特点，被广泛应用于滑坡易发性评价中，并且取得了良好的效果。但是，模型实质只是线性模型的泛化，所以在拟合非线性模型时性能较差，表达能力有限，无法深入挖掘滑坡样本的非线性特征。因此，需要对样本进行人工特征组合，将非线性特征转换成线性特征，再提供给学习。其存在的问题是，在进行特征组合时，需要专家的指导，这极大地增加了数据的处理成本和难度。生成的每一棵树自根节点到叶节点都是由样本数据中的某些特征组合得到，即一棵树代表一种特征组合。从公式（）可知，每棵树都有权重

15、，因此每种特征组合都有权重，权重越大，表明当前特征组合对结果影响越大。为了从中获得有效的特征组合，可以将每棵树的叶节点看成一个维度，并记录下样本数据经过每棵树后的叶节点位置，并进行编码，所得新的样本数据即为低维稠密特征到高维稀疏特征转换后的数据。为了避免过拟合，只将原数据的部分输入中生成新样本，将剩下的部分与新样本混合，输入到中。综上所述，与模型耦合的过程及原理如下：将滑坡数据和影响因子经过模型后，变成低维稠密特征样本数据，然后输入到模型，经过上述过程后，滑坡样本数据从低维度映射到高维度，并产生新的有效特征组合，这时滑坡样本中低维度的非线性特征将会转换成高维度的线性特征，再利用模

16、型对线性模型强大的拟合能，从而提高滑坡的预测精度（图）。和结合的算法，是由等在年提出来的，当时在广告点击率预测方面取得了非常优秀的效果。滑坡易发性评价流程本文从非滑坡单元中随机抽取个非滑坡单元作为样本，为了保证抽取的非滑坡样本的可靠性，只从距水系距离、距断裂距离大于的非滑坡单元中抽取数据，作为非滑坡样本。由于本文滑坡点数据较少，为了解决试验中样本不对称的问题，采用算法进行数据采样，生成和非滑坡样本相同数量的滑坡样本。具体的滑坡易发性评价流程图见图，试验结果采用频率比、滑坡灾害点及隐患点密度和精度曲线进行检验。图与耦合过程贵池区滑坡评价因子选取及信息量评价因子的选取滑坡的发生受多种环境因素的影响，主要有地质因子、地质构造因子、地表覆被因子、地形地貌因子。合理地选取评价因子，会大幅度提升滑坡灾害评价的准确度。本文通过对贵池区滑坡发生规律本质的总结，再结合前人对滑坡易发性水土保持通报第卷评价经验，最终选取个评价因子，分别为：坡度、坡向、地形曲率、剖面曲率、平面曲率、地形湿度指数（）、地形起伏度、归一化植被指数（）、距断裂距离、距水系距离。其中地形

展开阅读全文

基于GBDT-LR和信息量模型耦合的滑坡易发性评价_董张玉.pdf