基于CatBoost的重金属污染场地风险等级预测模型

资源描述

1、年月第卷第期收稿日期：基金项目：国家重点研发计划项目（编号：）；国家自然科学基金（编号：）；北京市自然科学基金（编号：）作者简介：李心治（），男，硕士研究生，研究方向为地理信息系统与大数据可视化分析。通讯作者：张健钦（），男，教授，博士生导师，研究方向为城市大数据可视化、智能交通、智慧应急等。基于基于的重金属污染场地风险等级预测模型的重金属污染场地风险等级预测模型李心治，张健钦，胡昊，姜会忠，李星辰，陆楠（北京建筑大学测绘与城市空间信息学院，北京；自然资源部城市空间信息重点实验室，北京；生态环境部信息中心，北京）摘要：为有效利用污染场地环境大数据，在未进行钻孔取样的情况

2、下对重金属污染场地进行风险等级的预测评估，研究构建了基于机器学习模型的重金属污染场地风险等级预测模型，并分析制定了模型学习样本的制作方法，依据污染行业专家知识结合场调数据特点建立指标集作为输入值，综合采用单因子指数法、地累积指数法与潜在生态风险指数法对场地内各网格地块的风险等级进行了划分并作为模型输出值。模型训练和测试结果表明：当输入特征为项指标，即面积、硬化面积、生产经营时间、排污、地下水埋深、饱和带土壤渗透性、地下防渗措施和高密度电阻时，性能最优，评价指标准确率为、宏查准率为、宏查全率为、宏值为。进一步与、两种机器学习模型进行了对比分析。结果表明：模型对重金属污染地块的风险等

3、级具有最佳的预测效果。构建的重金属污染场地风险等级预测模型可在无需采样数据的条件下对污染地块的风险等级进行预测，可为场地调查修复提供决策信息。关键词：重金属污染；风险等级；分类预测中图分类号：文献标识码：文章编号：（），（，；，；，）：，：，DOI:10.16663/ki.lskj.2022.24.011李心治，等：基于的重金属污染场地风险等级预测模型环境与安全，：；引言随着科学技术的不断进步，工业化生产规模不断扩大，给人们带来巨大财富的同时，也对土地造成了一定程度的污染，特别是重金属污染尤为突出。目前，钻孔取样分析是精准获得场地污染状态的唯一有效方法，但存在成本高、周期长等缺点。同时，污

4、染场地在调查、修复、评估的全流程中会产生大量的记录数据，如影像、视频、遥感地理信息、报告文本、物探等等，这些数据种类繁多，包括不同方面、不同层次和不同形式的各类数据。因此，如何有效地利用这些数据，在未进行钻孔取样的情况下对重金属污染场地进行风险等级的预测，对优化污染场地的风险评估决策流程具有重要意义。目前，围绕土壤的重金属污染问题，国内外众多学者开展了相关研究。其中，在土壤重金属污染评价方面较为常用的方法有单因子指数法、地累积指数法、污染负荷指数法、内梅罗指数法和生态风险指数法等。上述污染评价方法对重金属污染场地的研究具有很大价值，但都需要实际采样数据作为计算分析的基础，其数据获取过程存在操作

5、复杂且成本较高等缺点。近年来，随着机器学习的快速发展及其在解决非线性复杂问题上的独特优势，多种机器学习方法如随机森林、支持向量机、多层感知器等，已经逐渐应用于土壤特性预测、土壤重金属含量预测等方面。在众多机器学习方法中，是一种新的基于决策树的算法，具有较强的鲁棒性，可支持类别型特征且参数较少，精度与稳定性均高于随机森林与支持向量机，已逐渐应用于土地分类、土壤全氮含量预测等研究。本研究以国内个重金属污染场地为研究区，综合采用单因子指数法、地累积指数法与潜在生态风险指数法种污染评价方法对场地网格地块的风险等级进行划分，依据场地污染行业知识从场调数据中提取计算出各网格地块的特征指标信息作为模型的输

6、入，采用机器学习模型进行建模，拟在无需进行钻孔取样的条件下对污染地块的风险等级进行预测，从而为重金属污染场地的风险评估提供决策信息。材料与方法试验区域试验区域为来自我国东北、华东、华中、华南、西北以及西南地区的共个重金属污染场地，总占地面积约万，涉及石油化工、冶金矿产、农林牧渔种行业。具体信息如表所示。表试验场地信息场地名称所属行业所处地区占地面积万化工集团石油化工东北地区特殊钢有限责任公司冶炼矿产西南地区橡胶厂石油化工华南地区化工厂石油化工西北地区化工厂石油化工华中地区农药厂农林牧渔华中地区化工有限责任公司石油化工华东地区钢铁有限责任公司冶炼矿产西南地区数据来源与处理

7、前期调查数据污染场地的前期调查数据主要来源于资料收集和现场踏勘，包括与企业相关负责人沟通协调，收集场地历史、生产工艺、地勘报告和环境影响评价报告等相关资料；根据收集的资料和人员访谈初步判断疑似污染区域并进行现场走访和踏勘，获取到照片、视频、遥感影像等信息。土壤采样数据根据场地环境调查技术导则（）、场地环境监测技术导则（）、污染场地土壤修复技术导则（）、工业企业污染场地调查与修复管理技术指南（征求意见稿）等相关导则和指南要求，以及潜在污染区域的识别情况，按照系统布点及功能分区方式，结合专业判断的原则对场地进行布点采样，。各场地在各分区分布密度不同，设计的采样点覆盖场地全部区

8、域，同时为了更加准确划定重点区域污染边界，在部分区域进行加密布点。采样时，根据采样点所处功能区域的地层特征、年月绿色科技（）第期现场扫描数据辅助及感官判断结果进行采样深度的适当调整，优化分层采样深度划分，确保采集的土壤样品最具代表性。采样完毕且清点无误后，为了防止样品的损失、混淆和污染，将样品分类、整理和包装后放于带有冷冻蓝冰的保温箱中，直至最后到达检测单位分析实验室，完成样品交接。个污染场地共布设土壤采样点位个，共采集土壤样品个（包括平行样品和质量控制样品）。经实验室分析后，以采用场地土壤环境风险评价筛选值（）为筛选标准，从每个场地选取超标数量最多的重金属污染物为该场地的特

9、征污染物。各场地的采样情况及特征污染物信息如表所示。表各试验场地采样详情场地名称采样点数量样品数量特征污染物筛选值（）超标率最大超标倍数（）（）物探数据物探数据的获取采用高密度电法，其在水平和垂向上能够达到较高密度并在一定深度范围获取场地岩土层电阻率的参数，以探测各岩土层的空间分布等情况，满足目的要求。网格地块划分利用软件，结合污染场地的遥感影像，并根据各场地的面积以及采样点分布等情况，将个污染场地共划分为个网格地块，保证每个地块都包含至少一个土壤采样点。研究方法算法简介由和组成，是俄罗斯公司于年提出的一种在框架下进行改进优化的算法。以对称决策树为基学习器，参数较少，支持类

10、别型变量，且在准确率等方面相比其他算法表现得更为优秀。在中处理类别型特征的时候，通常采用方法，它以标签平均值作为节点分裂的标准，然而这种方法在训练数据集和测试数据集数据结构和分布不一样时候会出现条件偏移问题。针对该问题，对进行了改进，公式表达为：，（）式（）中：为添加的先验项；为大于的权重系数。通过这种添加先验分布项的方式，可以有效减少噪声和低频率类别型数据对于数据分布的影响。能够自动将类别型特征处理为数值型特征，同时可以使用组合类别特征，利用特征之间的联系极大地丰富了特征维度。此外，该算法还可以解决梯度偏差以及预测偏移的问题，从而减少过拟合的发生，进

11、而提高算法的准确性和泛化能力。特征指标集构建与权重处理基于个试验场地的数据，参考关闭搬迁企业地块风险筛查与风险分级技术规定等相关标准、规范，构建预测重金属污染地块的特征指标集，一级指标包括环境背景、污染物迁移途径和非侵入式物探项，一级指标中又包含二级指标项，具体信息如表所示。根据项二级指标，从已获取到的前期调查数据和物探数据中提取计算个网格地块相对应的指标赋值，作为模型的输入特征。输入特征过多不但会增加模型的复杂程度，还可能会产生过拟合等问题，因此需要根据参数的影响权重对其进行适当筛选。框架下的算法在构建初始模型时，对初始训练集中的各特征赋予一样的权重，再基于本次计算残差的减少方向

12、，下次计算时构建一个新的模型。因此在训练中，能够不断调整各输入特征的权重，最终可以获得对各个权重重要性的估计。本研究依据该种权重估计法，调整不同数量的输入特征对模型进行训练。土壤重金属污染评价方法（）单因子指数法。单因子指数法可以对土壤中任意一种重金属污染物的污染程度及特性做出评价，是国内外最常用的土壤重金属污染评价方法之一。其计算公式为：（）式（）中：为污染物的单因子指数；为污染物的实测浓度，；为污染物的风险筛选值（表）。单因子指数评价等级分为级，具体分级情况如表所示。（）地累积指数法。地累积指数法最早是由德国科学家在世纪年代提出的研究沉积物重金属污

13、染程度的定量指标，除地球化学背景值外还李心治，等：基于的重金属污染场地风险等级预测模型环境与安全表重金属污染地块特征指标集一级指标二级指标指标赋值环境背景面积地块面积年降水量年降水量硬化面积硬化面积地下管线地下管线主要产品主要产品年产量原辅材料原辅材料年使用量生产经营时间实际生产时间储罐储罐个数个排污排污区域面积污染物迁移途径地下水埋深埋深实测值饱和带土壤渗透性砾砂及以上土质粗砂、中砂及细砂粉砂及以下土质包气带土壤渗透性砂土及碎石土粉土黏性土地下防渗措施无防渗措施有一定的防渗措施有全面完好的防渗措施非侵入式物探高密度电阻电阻率（）考虑了人为污染因素及自然成岩作用引起的背景值变动。其计算公式如

14、（）所示。（）（）式（）中：为污染物的地累积指数；为污染物的实测浓度，；为调节系数，取；为污染物的风险筛选值（表）。地累积指数评价等级分为级，具体分级情况如下。（）潜在生态风险指数法。潜在生态风险指数法是由瑞典科学家提出的，结合了生态效应、环境效应和毒理学方面的内容对土壤重金属的生态风险进行评价。其计算公式如下：（）（）式（）、（）中：为污染物的潜在生态风险系数；为污染物的毒性系数，、（）、的毒性系数分别为、；为污染物的污染指数，即上述单因子指数值。潜在生态风险指数评价等级分为级，具体分级情况如表所示。表种评价方法分级对照等级单因子指数法污染等级地累积指数法污染等级潜在生态风险指数法污染等

15、级未污染未污染轻度风险轻度污染轻度污染中度风险中度污染偏中度污染较强风险重度污染中度污染很强风险偏重度污染极强风险重度污染严重污染网格地块风险等级划分方法利用单因子指数法、地累积指数法与潜在生态风险指数法分别计算各网格地块内所有采样点特征污染物的项污染指数，并综合其结果对应的污染等级，对重金属污染地块的风险等级进行划分。划分情况为：地块内所有采样点种方法评级均为轻度，则该地块风险等级划分为低；地块内任一采样点某方法评级为中度，则该地块风险等级划分为中；地块内任一采样点某方法评级为较重及以上，则该地块风险等级划分为高。单因子指数是利用实测数据和标准对比分类，直接得到评价结果。

16、地累积指数不仅反映了重金属分布的自然变化特征，而且可以判别人为活动对环境的影响。潜在生态风险指数综合考虑了多元素协同作用、毒性水平以及环境对重金属污染敏感性等因素。因此，将综合上述种土壤重金属污染评价方法所确定的污染地块风险等级作为模型的预测输出，能够从宏观的角度充分考虑重金属特征污染物的污染情况。年月绿色科技（）第期模型评价指标本研究所构建的模型为多分类，因此采用准确率（）、宏查准率（）宏查全率（）和宏值（）作为衡量模型训练效果的评价指标。它们的定义为：（）（）（）（）式（）式（）中：为把正样本成功预测为正的数量；为把负样本成功预测为负的数量；为把负样本错误预测为正的数量；为把正样本错误预测为负的数量；为每类样本的查准率；为每类样本的查全率。由定义可知，准确率为在所有样本中被正确预测的比例；宏查准率、宏查全率分别为计算每类样本的查准率和查全率后求得的平均值；宏为宏查准率与宏查全率的调和平均数，能够客观全面地反映模型性能。结果与分析模型构建根据从个试验场地数据中提取计算的特征指标信息，以及结合单因子指数法、地累积指数法与潜在生态风险指数法确定的网格地块风险等级，完成

展开阅读全文

基于CatBoost的重金属污染场地风险等级预测模型_李心治.pdf