1、三峡生态环境监测 Ecology and Environmental Monitoring of Three Gorges ISSN 2096-2347,CN 50-1214/X 三峡生态环境监测网络首发论文三峡生态环境监测网络首发论文 题目:机器学习在土壤重金属污染研究中的应用 作者:郭华雨,马海丽,陈一平,李芸邑,梁嘉良 收稿日期:2023-08-24 网络首发日期:2023-09-20 引用格式:郭华雨,马海丽,陈一平,李芸邑,梁嘉良机器学习在土壤重金属污染研究中的应用J/OL三峡生态环境监测.https:/ 网络首发网络首发:在编辑部工作流程中,稿件从录用到出版要经历录用定稿、排版定稿
2、、整期汇编定稿等阶段。录用定稿指内容已经确定,且通过同行评议、主编终审同意刊用的稿件。排版定稿指录用定稿按照期刊特定版式(包括网络呈现版式)排版后的稿件,可暂不确定出版年、卷、期和页码。整期汇编定稿指出版年、卷、期、页码均已确定的印刷或数字出版的整期汇编稿件。录用定稿网络首发稿件内容必须符合出版管理条例和期刊出版管理规定的有关规定;学术研究成果具有创新性、科学性和先进性,符合编辑部对刊文的录用要求,不存在学术不端行为及其他侵权行为;稿件内容应基本符合国家有关书刊编辑、出版的技术标准,正确使用和统一规范语言文字、符号、数字、外文字母、法定计量单位及地图标注等。为确保录用定稿网络首发的严肃性,录用
3、定稿一经发布,不得修改论文题目、作者、机构名称和学术内容,只可基于编辑规范进行少量文字的修改。出版确认出版确认:纸质期刊编辑部通过与中国学术期刊(光盘版)电子杂志社有限公司签约,在中国学术期刊(网络版)出版传播平台上创办与纸质期刊内容一致的网络版,以单篇或整期出版形式,在印刷出版之前刊发论文的录用定稿、排版定稿、整期汇编定稿。因为中国学术期刊(网络版)是国家新闻出版广电总局批准的网络连续型出版物(ISSN 2096-4188,CN 11-6037/Z),所以签约期刊的网络版上网络首发论文视为正式出版。三峡生态环境监测 Ecology and Environmental Monitoring o
4、f Three Gorges 机器学习在土壤重金属污染研究中的应用 郭华雨1,马海丽1,陈一平2,李芸邑2,梁嘉良2*(1.海军后勤部专项工程建设办公室,北京 100841;2.重庆大学环境与生态学院,重庆 400045)摘 要:土壤重金属污染是全球性的环境问题之一。传统的重金属检测方法精度高,但是成本高、时效性差,不利于大范围普查或绘制重金属分布图,并且数据量大、处理难度高。随着计算机科学的发展,机器学习被应用于众多领域中的复杂数据处理。本文从重金属含量、固定、溯源、污染风险四个方面总结了机器学习在土壤重金属研究中的应用,重点综述了机器学习模型的建立过程和最佳算法,并针对数据集构建的成本和时
5、效性问题提出了发展的对策,为进一步推动机器学习在土壤重金属研究中的应用提供参考。关键词:机器学习;土壤重金属;重金属含量;溯源;风险评估 文献标识码:A Application of Machine Learning in the Study of Soil Heavy Metal Pollution GUO Huayu1,MA Haili1,CHEN Yiping2,LI Yunyi2,LIANG Jialiang2*(1.Special Engineering Construction Office of Naval Logistics Department,Beijing 100841,
6、China;2.College of Environment and Ecology,Chongqing University,Chongqing 400045,China)Abstract:Soil heavy metal pollution is one of the global environmental problems.Traditional heavy metal detection methods have high accuracy,but high cost and poor timeliness are not conducive to large-scale censu
7、s or drawing of heavy metal distribution maps,and the data volume is large and the processing difficulty is high.With the development of computer science,machine learning has been applied to complex data processing in many fields.This article summarizes the application of machine learning in soil he
8、avy metal research from four aspects:heavy metal content,fixation,traceability,and pollution risk.It focuses on the establishment process and optimal algorithms of machine learning models,and proposes development strategies for the cost and timeliness issues of dataset construction,so as to provide
9、references for further promoting the 收稿日期:2023-08-24 基金项目:国家自然科学基金面上项目(52170025)。作者简介:郭华雨,工程师,长期从事污染物治理和资源化方面的研究。通讯作者:梁嘉良,副教授,主要从事污水处理与污染物资源化等方面的研究。E-mail: 网络首发时间:2023-09-20 16:12:43网络首发地址:https:/ http:/ of machine learning in soil heavy metal research.Keywords:machine learning;heavy metals in soil;
10、heavy metal content;traceability;risk assessment 土壤重金属污染问题在全球范围内受到长期关注1。土壤中的重金属因其毒性、持久性、生物可利用性和较长的生物半衰期而被认为是土壤环境中最危险的污染物之一。世界卫生组织认为,整个生态系统正在由于过度暴露于重金属而不断受到威胁2-4。土壤重金属可能通过皮肤吸收、口服摄入、口鼻呼吸等途径进入人体,从而损害人体的神经、消化和内分泌系统,甚至可能诱发癌症5。一些重金属还能够通过抑制酶的活性,引起中度的细胞质损伤,从而影响神经组织,甚至损害解毒的关键器官6。因此,调查和研究土壤重金属的相关信息,开发合理的土壤重金属
11、污染修复技术,从而加强重点地区的污染防治成为了研究热点。目前,传统的方法主要依靠现场采样和复杂的、多步骤的实验室测试来获得土壤重金属的相关信息7。重金属的浓度通常由专业的实验室测定,检测结果虽然具有较高的精度,但对于大规模的污染调查,现场采样成本高且耗时长,生态环境信息综合分析能力弱,使得传统的化学方法难以在监测土壤重金属污染时具有高效率和较强的时效性8-9。因此,有必要开发新的技术,既能得到准确的土壤重金属相关数据,又减少人力、财力及时间上的消耗。机器学习是基于样本数据建立模型,在没有明确编程的情况下做出预测或决策的新技术,其模型包括监督、无监督和半监督学习,输入的数据常被分成训练集和测试集
12、,模型在训练集上训练,而测试集用于评估模型的稳健性和准确性10。机器学习拥有强大的拟合能力,分析和学习大量复杂、多维的数据集,发现数据中隐藏的关联,并且比其他方式更加有效和准确11。因此,在过去十年,机器学习,尤其是深度学习在图像分类、机器翻译12、化学13、材料科学14、生物医学15和量子物理16等领域得到了长足的发展。近几年,机器学习在环境领域也得到了广泛应用,在评估环境风险17、评估水和废水基础设施的健康状况18、优化处理技术19、识别和确定污染源的特征20以及进行生命周期分析21等方面显示良好的应用前景。近年来,基于机器学习模型的土壤重金属研究受到了极大的关注22,不仅将劳动力、经济、
13、时间和空间要求方面的成本负担最小化,还促进了对自变量和三峡生态环境监测 Ecology and Environmental Monitoring of Three Gorges 因变量之间的非线性和复杂联系的理解23。然而,模型的性能会受到某些因素的影响,如数据集的数量、数据类型、数据优化以及由算法而产生的偏差等等24。由于算法类型众多,通常需要基于数据类型和应用方面,首先对数据集进行筛选,然后对模型进行训练和验证,以获得最稳健、准确的计算模型。因此,本文总结了机器学习在土壤重金属领域不同方面的应用,对各方面的常用建模过程和模型筛选过程进行了综述,以期进一步推动机器学习在土壤重金属研究中的应用
14、。1 机器学习与土壤重金属污染机器学习与土壤重金属污染 1.1 重金属含量重金属含量 在土壤重金属污染领域,机器学习最常被应用于土壤重金属含量的预测。研究者们通常以土壤的光谱信息、遥感信息、理化性质、采样点气候等因素为输入参数,以实验室测定的重金属含量为目标函数进行模型构建,并比较不同计算模型的预测准确度。该技术方案不仅能够实现对指定地点的重金属含量的预测,还可以分析决定不同地点重金属浓度的关键因素,进而绘制土壤重金属分布地图。1.1.1 土壤重金属含量预测 重金属含量是评价土壤重金属污染最重要的特征,而土壤中重金属浓度与土壤性质息息相关。高光谱遥感技术由于其丰富的光谱信息,已逐渐被应用于土壤
15、的物理化学性质检测25(表 1)。然而,高光谱数据的高维数和冗余特性严重影响了估算模型的准确性和稳定性26,因此需要对高光谱进行筛选。研究者们使用 Pearson 相关系数阈值来确定与土壤重金属含量相关性最高的光谱变量27-28,也有研究者在提取高光谱数据作为参数时就使用了机器学习法29。偏最小二乘回归(partial least squares regression,PLSR)能够在输入参数存在严重多重相关性的条件下进行回归建模,更易于辨识高光谱中的系统信息与噪声。TANG 等30利用 PLSR-VIP 值评价和相关分析方法选择特定光谱特征波段,提取的有效特征带与强相关系数基本一致,共计提取
16、了 637 个 Cr 的特征带,756 个 Ni 的特征带。HAN 等31通过序贯正交化(sequential preprocessing of orthogonalization,SPORT)对 PLSR 模型进行优化后得到 SO-PLSR,大大提高了建模精度,训练集 R2达到0.89,测试集 R2达到 0.82。提升树(boosting tree,BT)是弱分离器组合起来形成强分离器的一类模型,三峡生态环境监测 http:/ boosting decision tree,GBDT)是其中一种,可在缺失输入参数持续可控的情况下保持强抗噪性32。TANG 等30以高光谱特征值和Al-Fe 矿物
17、含量作为参数,使用 GBDT、随机森林(random forest,RF)、支持向量机(support vector machine,SVM)、极端梯度增强树(extreme gradient boosting,XGBoost)、自适应提升树(adaptive boosting,AdaBoost)5 种模型对 Cr、Ni 浓度进行预测,结果表明 GBDT 为最佳预测模型,Cr 和 Ni 的 R2分别达到 0.85 和0.71。极端梯度增强树(XGBoost)是在 GBDT 的基础上改进得到的模型,可以根据重要性排序来识别敏感特征,防止模型过拟合33。SUN 等34以高光谱降维得到的特征值和 N
18、i 浓度相关的光谱指标作为参数,使用 RF、XGBoost、SVM、反向传播神经网络(back propagation neural network,BPNN)、高斯过程回归(gaussian process regression,GPR)5 种模型对 Ni 浓度进行预测,结果表明XGBoost 为最佳预测模型,标准差(standard deviation,SD)与均方根误差(root mean squared error,RMSE)之比(residual predictive deviation,RPD)可达到 2.08。为提高 Boosting 的预测精度,可以与其它算法联合使用。传统的
19、AdaBoost 模型通常采用分类回归树(classification and regression tree,CART)作为基本学习器24-35,LIN 等36提出了一种新的堆叠 AdaBoost 模型,选择 CART、SVM、GPR、k 近邻(K-nearestneighbor,KNN)、多层感知器(multilayer perceptron,MLP)、核岭回归(kernel ridge regression,KRR)6 种机器学习模型作为 AdaBoost 的基本学习器。结果表明,将 CART、GPR、MLP、SVM 作为基础学习器的堆叠 AdaBoost模型相对稳定,精度更高。表 1
20、机器学习在土壤重金属浓度预测中的部分应用 Table 1 Application of machine learning in soil heavy metal concentration prediction 序号 数据来源 输入 输出 计算模型 结论 参考文献 1 卫星遥感、采样测试 高光谱特征值,Ni浓度 Ni 浓度 RF、XGBoost、BPNN、SVMR、GPR 1.降维算法可以提高光谱的灵敏度和精确度。2.XGBoost 为最佳预测模型。34 2 卫星遥感、采样测试 Al-Fe 矿物含量,高光谱数据 AlOx、FeOx组分及Cr、NiRF、SVM、XGBoost、AdaBoost、
21、GBDT 1.加入 Al-Fe 矿物含量作为预测因子可提高模型性能。2.GDBT 为最佳预测模30 三峡生态环境监测 Ecology and Environmental Monitoring of Three Gorges 序号 数据来源 输入 输出 计算模型 结论 参考文献 含量 型。3 卫星遥感、采样测试 Cr、Cu、As的浓度,高光谱数据 Cr、Cu、As 浓度 CART、KNN、MLP、SVM、GPR、KRR 将 CART、GPR、MLP、SVM 相结合的堆叠AdaBoost 模型相对稳定,精度更高。36 4 采样测试 FTIR 光谱数据,Cd浓度 Cd 浓度 MSC-ELM、PLSR
22、、ELM、TELM、BP、RF、ANN MSC-ELM 模型预测性能最佳。37 5 卫星遥感、采样测试 Hg 含量,高光谱数据 Hg 浓度 PLSR、正交PLSR、RF、BPNN BPNN+标准正态变量+全波段模型的预测精度最佳。31 6 卫星遥感、采样测试 近红外反射光谱,As浓度 As 浓度 RF、ET、AdaBoost、XGBoost、GBDT RF 预测精度最佳,调查成本最低。28 7 采样测试 重金属浓度差异,空间邻域和高维协变量差异 测点和未观测点之间的浓度差异 OK、EDK、RF、RFRK 提出了两点机器学习法,用于预测观测点和未观测点之间的浓度差异。38 8 采样测试 土壤性质
23、、重金属含量 Fe、Cu、Mn、Zn含量 MLP、M5、BM5P MLP 是最适合估算 Fe、Mn 的方法,而 BM5P和 M5 分别是最适合估算 Cu、Zn 的方法。39 注:MSC-ELM:多层自耦合极限学习机;ELM:极限学习机;TELM:两隐层极限学习机;BP:反向传播;ET:极度随机树;EDK:外部漂移克里金法;RFRK:基于随机森林的回归克里金法;M5:M5 回归树;BM5P:套袋回归法。1.1.2 土壤重金属含量的影响因素 土壤环境是复杂的,没有单一因素可以单独影响土壤重金属含量,各种影响因素之间可能表现出复杂的相互作用。在某些情况下,某一因素可能与土壤重金属含量没有直接关系,但
24、可能与其他因素的相互作用存在相关性,从而影响土壤重金属浓含量40-41。因此,机器学习被应用于分析影响因素之间的复杂关系(表2)。RF 模型使用特征重要性指标来分析影响因素,特征重要性是通过对每个特征的重要度分数进行排序来计算的,这些分数反映了每个特征对模型预测性能的贡献程度42。LI 等43使用 RF 模型甄别了自然和人为因素导致的 Cd 污染,定量三峡生态环境监测 http:/ Cd 积累的贡献,并进一步确定了影响因素之间的相互作用。YANG 等44使用正交矩阵因子分解(positive matrix factorization,PMF)和RF 模型相结合的方法确定了重金属的潜在环境影响。
25、结果表明,不同重金属的关键影响因素不同,例如,影响 Cd 和 Cu 浓度的关键因素是与污染源的距离,而 As、Ni 和 Cr 的关键影响因素则是土壤母质、pH、有机质等。重金属来源的空间位置也会影响其含量,因此研究者们引入二元局部莫兰指数(bivariate local morans I,BLMI)对污染企业网格进行空间分析。JIA 等45使用多项朴素贝叶斯(naive bayes,NB)方法对 26 万多家企业的地理数据进行了分类,之后使用 BLMI 进行了分析,探讨了不同工业类别与土壤 Cd 和 Hg 含量之间的关系,例如,过度施肥和采煤导致地区高 Cd 浓度的主要原因。HUANG 等46
26、将 NB、RF、BLMI 相结合,分析了某工业地区土壤重金属浓度的影响因素,具体来说,先利用 NB 识别出作为贡献因子的 250 家污染企业,之后利用 RF 测定了影响因素对 As、Cd 和 Hg 浓度的定量贡献,最后利用 BLMI 生成了重金属浓度与关键影响因素之间的空间聚类图,明确揭示了它们之间的相互作用和内在效应。表 2 机器学习在土壤重金属影响因素分析中的应用 Table 2 Application of machine learning in soil heavy metal influence factor analysis 序号 数据来源 输入 输出 计算模型 结论 参考文献 1
27、 调查公报 污染企业类别,Cd、Hg 浓度 Cd、Hg变异系数值 SVM、ANN、NB 1.NB 模型精度最优。2.金属加工行业和化工行业分别对对 Cd 和 Hg污染的影响较大。45 2 采样测试 Cd、As、Hg 浓度,土壤性质及利用类型,环境参数 污染企业,影响因素定量贡献 NB、RF 和BLMI 相结合 识别了污染企业,测定了不同因素对重金属浓度的贡献,生成了空间聚类图。46 3 采样测试 土壤性质、自然因素,人为因素,Cd 浓度 因素贡献 RF 判断出主要影响因子和不同因素之间的相互作用。43 4 采样测试 Cd、Cu、Pb、Zn、As、Cr、Ni 的浓度,土Cd、Cu、Pb、Zn、A
28、s、Cr、RF 1.与工业污染源的距离和与道路的距离分别对Cd、Cu 和 Pd、Zn 浓度44 三峡生态环境监测 Ecology and Environmental Monitoring of Three Gorges 序号 数据来源 输入 输出 计算模型 结论 参考文献 壤性质,环境参数 Ni 的浓度 影响较大。2.土壤性质是影响 As、Cr、Ni 积累的关键因素。5 采样测试 采样点经纬度,土壤性质,Cd、Pb、Cr、As、Hg 浓度 Cd、Pb、Cr、As、Hg 浓度 CNN、MLR、BRR、SVM、BPNN、LH-OAT CNN 模型最佳,Cd 和Pb 浓度、土壤 pH 和海拔高度是
29、CNN 的主要敏感性特征。47 6 官方网站 企业信息,污染状况、迁移路径、受体,原料及产品污染物类型 各指标的污染贡献值 RF、SVM、MLP 评估了各因素对重金属污染的贡献。48 注:CNN:卷积神经网络;MLR:多元线性回归;BRR:贝叶斯回归;LH-OAT:敏感度分析。1.1.3 土壤重金属分布地图 绘制重金属分布地图是了解土壤重金属空间分布最直观的方式,是针对性地对土壤污染问题进行治理的前提49。传统的土壤化学污染调查方法昂贵、费时、费力,而使用机器学习进行数字土壤制图则在便捷性方面拥有显著优势50。数字土壤制图基于不同的机器学习模型,这些模型的输入数据来自于全球定位系统(globa
30、l positioning system,GPS)、地理信息系统(geographic information system,GIS)、光谱波、现场扫描仪、遥感数据等51-53,而机器学习模型的选择对于建模过程和结果都至关重要。表 3 列举了机器学习在土壤重金属空间分布中的应用,其中 AZIZI 等 54将遥感数据、地形属性、专题地图和土壤属性作为输入参数,评估了 RF、立体回归树(cubist regression tree,Cubist)对空间重金属含量分布的预测精度,结果表明,RF 模型对 Ni 和 Cu 的预测精度较高,而 Cubist 模型对 Mn 的预测性能更佳。YANG 等55从
31、 150 篇文献中收集了有关重金属的土壤吸附数据、土壤特性、吸附系统性质,研究了 CART、线性回归(linear regression,LR)、随机梯度下降回归(stochastic gradient descent egression,SGDR)、支持向量回归(support vector regression,SVR)、KNN、脊回归(ridge regression,Ridge)6 种传统学习模型和三峡生态环境监测 http:/ randomized tree,ET)4 种集合模型,建立了 6 种金属的独立模型,可在已知土壤性质的情况下,预测并绘制土壤重金属的全球分布图。空间插值法是指
32、在给定的有限点数据集上,通过某种计算模型,对未知位置的数值进行估计或预测的方法,被广泛应用于与地理有关的领域中56-58。SERGEEV 等59以空间坐标为输入参数,以元素含量为输出参数建立模型,首先分析了人工神经网络MLP 和广义回归神经网络(general regression neural network,GRNN)模型的残差(预测值与实际值的差),然后对残差加以普通克里金(ordinary kriging,OK)计算,并将输出与人工神经网络模型相结合,得到 MLPRK 和 GRNNRK 模型的预测结果。SONG 等60使用多元线性回归-普通克立格法(MLR-OK)、支持向量机-普通克立
33、格法(SVM-OK)和随机森林-普通克立格法(RF-OK)的混合统计模型进行土壤重金属空间分布进行预测和制图,结果表明,OK 的引入使模型预测精度(R2)提高了 30%。表 3 机器学习在土壤重金属空间分布中的应用 Table 3 Application of machine learning in spatial distribution of heavy metals in soil 序号 数据来源 输入 输出 计算模型 结论 参考文献 1 采样测试 重金属浓度,环境协变量,空间协变量 重金属浓度及空间分布 RF、ANN、XGBoost 区域空间信息可提高模型的预测性能。53 2 采样测试
34、 土壤地理性质,遥感数据,土壤性质,Ni、Fe、Cu、Mn 浓度 Ni、Fe、Cu、Mn的空间分布 RF、Cubist RF、Cubist 分别对 Ni、Cu 和 Mn 的预测精度较高,预测 Fe 时两种模型的精度相似。54 3 采样测试 Cu、Co、Ni、Cr 含量,采样点空间位置 重金属空间分布 MLP、GRNN、RK GRNNRK-MLPRK 模型预测表土元素含量空间分布最佳。59 4 采样测试 重金属的土壤吸附数据、土壤特性、吸附系统性质 重金属空间分布 CART、KNN、LR、Ridge、SGD、SVR、ET、GBDT、RF、XGB GBDT 预测性能最佳。55 5 采样测试 Cr、
35、Ni 浓度、重金属氧化物浓度,土壤Cr、Ni 污染分布、危害概率 RCF、RRF 1.RCF 和 RRF 分别在预测危害概率和预测污染分布方面表现良好。51 三峡生态环境监测 Ecology and Environmental Monitoring of Three Gorges 序号 数据来源 输入 输出 计算模型 结论 参考文献 性质,采样点经纬度 2.分析了 Cr 和 Ni 的分布趋势,污染面积占比。6 卫星遥感、采样测试 重金属浓度,高光谱数据,采样地经纬度、地形 重金属浓度 LASSO-GA-BPNN、IDW、OK、SVR、RF 1.LASSO-GA-BPNN 为最佳模型。2.各重金
36、属含量的整体空间分布规律非常相似,局部空间分布不同。52 7 卫星遥感、采样测试 Cd、Hg、As浓度,高光谱数据 Cd、Hg、As 浓度 PSO 与BPNN 相结合 PSO-BPNN 的预测精度远高于 BPNN,扩大了土壤重金属含量制图的尺度范围。27 8 采样测试 采样点 GPS坐标及地理地形,油井和工厂位置,重金属含量 浓度、分布、影响因素 ML-ROK、SVM-OK、RF-OK 1.RF-OK 预测精度最佳。2.分析了重金属的富集区。60 注:RCF:随机分类森林;RRF:随机回归森林;LASSO:最小绝对收缩和选择算子;IDW:反距离加权法;PSO:粒子群优化。1.2 重金属固定重金
37、属固定 固定化是土壤重金属修复的一种有效技术,它具有高效、环境可持续和低成本的优势61。生物炭具有比表面积高、孔隙结构发达、易于表面改性等特点,可以通过络合、沉淀和吸附的方式将重金属固定在土壤中62-63,是常用的土壤重金属修复材料。然而,由于生物炭理化性质的多样性,探究生物炭固定重金属效率的定量构效关系存在着费时、费力、成本高的局限性64-65。机器学习可以基于庞大、复杂和大维度的数据来构建预测模型,为研究生物炭在固定土壤重金属方面的定量构效关系提供了有力工具66(表 4)。GUO 等67收集了 32 篇文献,提取了 844 个数据点,使用 RF、SVR、GBDT、LR 四种模型预测了生物炭
38、对重金属固定效率,结果表明 RF 模型预测效果最佳,其中生物炭投加量、土壤 pH 和有机碳含量对土壤重金属固定效率的影响最大,且呈正相关关系。SUN 等68从发表的文献整理得到包含 74 种生物炭和 43 种土壤的数据库,使用人工神经网络(artificial neural network,ANN)和 RF 对生物炭固定 5种不同重金属和类金属的过程进行建模,通过生物炭特性、土壤理化性质、操作条件和重金属的初始状态对重金属吸附效率进行了预测。由于文献提供的数据类三峡生态环境监测 http:/ 和 RF 都具有较好的预测性能,而 RF 模型具有更高的数据容错性。PALANSOORIYA等69从文
39、献中筛选出了20个变量作为参数输入RF、SVR、ANN模型,在训练阶段对最佳超参数进行了调整,使用五次交叉验证将预测误差将至最低,优化后的 RF 模型预测效果最佳。因果分析表明,影响重金属固定效率的因素依次为生物炭性质实验条件土壤性质重金属性质。表 4 机器学习在重金属固定中的应用 Table 4 Application of machine learning in the fixation of heavy metals 序号 数据来源 输入 输出 计算模型 结论 参考文献 1 文献 生物炭的特性、土壤理化性质、培养条件、重金属的初始状态 重金属固定效率 ANN、RF 1.RF 模型具有较高
40、的数据容错性。2.对修复影响最大的因素是重金属的类型、生物炭的 pH 值、用量和修复时间。68 2 文献 生物炭性质、土壤性质、实验条件 重金属固定比 RF、SVM、GBDT、LR 1.RF 预测效果最佳。2.生物炭用量、土壤 pH和有机碳含量对土壤重金属固定化率的影响最大。67 3 文献 生物炭的性质、实验条件、土壤特性、重金属特性 重金属固定效率 RF、SVR、NN 1.生物炭中氮含量和施用量对重金属固定化影响较大。2.土壤固定化效率的影响因素贡献为生物炭性质实验条件土壤性质土壤性质。69 1.3 重金属溯源重金属溯源 了解土壤中重金属的来源是治理土壤污染的关键。传统的溯源方法主要包括主成
41、分分析(principal component analysis,PCA)、PMF 和同位素分析70,其中PMF 模型使用最小二乘法对数据进行迭代计算,并在非负约束条件下评估各因子的贡献,目前已被广泛应用于土壤重金属污染源的量化分析,但是如果数据点之间存在多重共线性,则该方法失效71-72。机器学习方法可以建立具有较强预测能力的非线性模型,从而克服上述缺陷(表 5)。例如 RF 可用于确定各种来源三峡生态环境监测 Ecology and Environmental Monitoring of Three Gorges 对的贡献73,自组织映射(self-organizing map,SOM)作
42、为一种高维可视化方法,已被应用于分析污染源及其分布74-75。SHI 等76采用传统的统计分析PMF 和三种机器学习方法SOM、条件推理决策树(conditional inference tree,CIT)、RF 来识别和评估土壤中不同来源的重金属的贡献,利用 PMF 模型得到了各来源的土壤重金属总负荷贡献率占比,利用 SOM 模型分析了各种重金属的主要来源,利用 CIT 模型识别了各种重金属的重要影响因素,利用 RF 模型量化并识别了潜在影响因素。ZHENG 等77提出了 PMF 与 GBDT 和 SOM 相结合的方法,以量化土壤重金属各种来源的贡献,并从野外采样和地理空间数据中识别相关驱动
43、因素。不仅评估了土壤重金属的浓度和空间分布,还利用 GBDT-偏相关图(partial dependence plot,PDP)模型识别了影响污染源的驱动变量。重金属之间的相关性会导致图形结构的元素之间的关系发生变化,但是在使用 SOM 模型的研究中,这些关系往往被忽视,导致评估不准确。图卷积网络(graph convolutional network,GCN)在自动化的同时能够学习到图的特征信息与结构信息,具有优异的鲁棒性78-79。GAO 等80首先训练GCN 学习了土壤样本之间的图结构关系,然后使用 SOM 和图卷积自组织映射(graph convolutional self-organ
44、izing map,GCSOM)将数据可视化,结果显示,GCSOM 得到的数据图具有更大的聚集性和更清晰的分类边界。表 5 机器学习在土壤重金属溯源中的应用 Table 5 Application of machine learning in soil heavy metal traceability 序号 数据来源 输入 输出 计算模型 结论 参考文献 1 采样测试 重金属总浓度及光谱分析数据、自然因素、人为因素 重金属来源识别与分配 PMF、SOM、CIT、RF 1.分析了不同因素对土壤重金属总负荷的贡献率。2.判断了不同重金属的来源。76 2 采样测试 重金属浓度、相似度、污染源和研究区
45、地点 重金属迁移路线 RM 1.评估了各区域的生态风险。2.判断了主要污染源。3.分析了土壤重金属的集中区域,并根据相似度绘制了迁移路线。81 3 采样测Fe2O3、来源、驱动SOM-PMF-1.判断了不同重金属的77 三峡生态环境监测 http:/ 数据来源 输入 输出 计算模型 结论 参考文献 试 Al2O3、pH、有机物质、地理空间数据 因素 GBDT 来源。2.分析了影响每个污染源的主要驱动因素。4 采样测试 重金属浓度、采样点坐标、环境因素、人为因素 重金属浓度、来源、影响因素 SVM、ANN、KNN、XGB、RF、GPR 1.评估了不同来源对重金属浓度的贡献占比。2.分析了重金属的
46、污染控制因素。49 5 采样测试 重金属浓度、地质因素、人为因素 各因素相关性 SOM、GCSOM 1.GCSOM 对重金属来源的识别优于 SOM。2.分析了重金属的主要来源。3.评估了重金属生态风险。80 注:RM:随机游走。1.4 重金属污染风险评估重金属污染风险评估 常用的土壤重金属污染风险评估方法包括单因素污染指数法82、污染负荷指数法82、Nemerow综合污染指数法83(nemerow integrated pollution index,NIPI)和潜在生态风险评价法84(potential ecological risk index,RI)等。随着人工智能和机器学习在各个领域的
47、兴起,人们开始将机器学习与传统评价方法相结合,以更加准确快捷地评估污染风险(表 6)。RI 可以重金属的环境生态影响与毒理学相联系,评估任何潜在的生态危害。HUANG 等85根据 RI 值使用 K-means 将数据集划分为 5 种类型,有效覆盖了不同的土壤重金属污染程度,然后利用 SVM进行构建了风险评价模型,该模型训练集和测试集的准确率均能达到 95%以上,具有良好的分类和评价性能。NIPI 可以综合反映重金属对土壤的不同影响,突出重金属高浓度对环境质量的影响,避免因平均而弱化重金属权重的现象。WANG 等86首先将土壤样本的可见和近红外光谱(visible and near-infrar
48、ed spectroscopy,VNIR)进行预处理,测得土壤中重金属含量,计算出每个样品的NIPI和RI值,并将NIPI和RI数值分为不同的风险等级,然后利用PLSR、Cubist、GPR 和 SVM 构建重金属含量和 2 种污染指数的预测模型,结果表明,SVM 具有较高的预测精度和较强的泛化能力。ZHOU 等87将单因素指数法与 NIPI 结合使用,单因素定义为 pH,NIPI 直接反应土壤重金属超标倍数和污染程度,使用三峡生态环境监测 Ecology and Environmental Monitoring of Three Gorges 遗传算法(genetic algorithm,G
49、A)-反向传播(back propagation,BP)、MLR、BP、M5 模型树 4 种模型预测某地区的重金属污染风险,结果表明,GA-BP 模型具有较快的收敛速度,并且预测精度最佳。表 6 机器学习在土壤重金属风险预测中的应用 Table 6 Application of machine learning in soil heavy metal risk prediction 序号 数据来源 输入 输出 计算模型 结论 参考文献 1 采样测试 重金属浓度 RI SVM、K-means 将采样数据进行K-means 聚类后使用SVM 模型计算,具有良好的分类和评价能力。85 2 采样测试
50、采样点地理数据,重金属浓度 重金属污染风险 LSTM 提出了一种基于堆叠长短期记忆(LSTM)模型的重金属污染评价框架。88 3 采样测试 剖面的可见光和近红外光谱、重金属浓度 NIPI、RI Cubist、GPR、SVM、PLSR SVM 模型预测性能最佳。86 4 采样测试 Cd、Se 含量、地层 重金属污染水平指数 GA-BP、MLR、BP、M5 1.GA-BP 神经网络模型的预测精度最佳。2.评估了样品的污染风险。87 注:LSTM:长短期记忆分析。2 总结与展望总结与展望 机器学习的应用大大降低了土壤重金属相关研究的模型构建成,已然成为相关研究的热点之一。在土壤重金属浓度预测、重金属