收藏 分享(赏)

基于近红外-可见光高光谱的堆叠泛化模型褐土有机质预测_张秀全.pdf

上传人:哎呦****中 文档编号:2372831 上传时间:2023-05-10 格式:PDF 页数:8 大小:1.11MB
下载 相关 举报
基于近红外-可见光高光谱的堆叠泛化模型褐土有机质预测_张秀全.pdf_第1页
第1页 / 共8页
基于近红外-可见光高光谱的堆叠泛化模型褐土有机质预测_张秀全.pdf_第2页
第2页 / 共8页
基于近红外-可见光高光谱的堆叠泛化模型褐土有机质预测_张秀全.pdf_第3页
第3页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 卷,第期 光谱学与光谱分析 ,年月 ,基于近红外可见光高光谱的堆叠泛化模型褐土有机质预测张秀全,李志伟,郑德聪,宋海燕,王国梁山西农业大学农业工程学院,山西 太谷 山西农业大学谷子研究所,山西 长治 摘要准确预测农田土壤有机质含量有助于评估农田肥力状况,为精准农业提供数据依据。为解决单模型实现快速估测农田土壤表层有机质含量精度较低和泛化能力较弱的问题,以山西省典型褐土农田表层土壤为研究对象,基于近红外可见光高光谱数据,提出了一种堆叠泛化模型()用于预测有机质含量。首先对原高光谱数据采用小波平滑,对平滑数据进行倒数一阶微分、对数倒数一阶微分变换,采用相关系数与递归特征消除法进行特征波段提取。

2、同时,引入机器学习中的集成学习随机森林 ()、梯度提升决策树 ()、极限梯度提升 ()、个初级机器学习器模型通过折交叉验证对有机质含量进行预测,在初级学习器预测结果基础上,采用随机梯度下降 ()作为元学习器建立 堆叠泛化模型。突破单模型精度较低和不稳定的制约,实现有机质含量的快速稳定检测。结果表明:倒数一阶微分变换后的光谱信息与有机质含量具有较好的相关性,相关性最大值达到了 ;相比单模型,堆叠泛化预测模型的决定系数()和相对分析误差()分别为 和 ,较其他算法平均决定系数()和平均相对分析误差()分别提高了 和 ;平均绝对误差()、均方根误差()分别为 和 ,较其他算法平均绝对误差()和平均均

3、方根误差()分别降低了 和 ,优化效果明显,可用于农田土壤表层有机质含量的有效估测。研究成果可为农田土壤表层有机质含量的高光谱快速检测提供依据和参考。关键词可见光近红外;高光谱预测;有机质含量;堆叠泛化模型中图分类号:文献标识码:()收稿日期:,修订日期:基金项目:国家重点研发计划项目(),财政部和农业农村部国家现代农业产业技术体系“燕麦荞麦多样化智能化收获装备研发与示范”项目(),山西省重点研发计划项目()资助作者简介:张秀全,年生,山西农业大学农业工程学院讲师 :通讯作者 :;引言快速、高效、规模化、智能化获取土壤参数特征是实现精准农业最重要的基础工作之一,如何利用高光谱进行土壤养分参数识

4、别,如何定量描述和预测土壤养分特征与高光谱数据之间的关系,是精准获取土壤参数的关键。土壤有机质是评估土壤肥力的重要指标之一;探究和揭示土壤有机质的高光谱响应规律,定量估算土壤有机质含量可为检测评估土壤肥力提供有效的途径。土壤有机质高光谱预测模型主要有线性和非线性模型,线性模型因其处理变量间存在共线性和非线性问题具有局限性。因此目前,机器学习已成为土壤有机质预测的主要方法,其中,随 机 森 林(,)、支持向 量机(,)、极限学习机(,)、神经网络(,)、集成学习 模型都得到了广泛的应用。处理小样本效果较好,在处理大规模样本数据训练效率较差;神经网络需要大量参数,不能观察其学习过程,结果的解释力较

5、差;集成学习(,算法)通过构建多个弱学习器,采用某种策略将多个学习器进行结合,可获得比单一学习器更好的泛化性能,降低误差率而被广泛应用;单模型在模型结构和预测偏差上会存在不同程度的差异,模型精度也会存在不稳定的问题,堆叠泛化模型()充分利用了组件学习器在模型结构和预测偏差上的差异程度,弥补了已有的集成算法 、方法中基学习器受样本扰动的不足,保证了集成学习的效果。对于有机质估测模型泛化能力的评估已有报道多采用留出法 ,该方法可能会因训练测试集的划分数据分布不均导致的偏差对结果产生影响,或因训练测试集根据给定的比例进行分割导致的单次使用留出法使得估测结果不稳定,或因训练集测试集比例不合理导致估测结

6、果不准确,从而降低了评估结果的保真性。因此,以山西省典型褐土农田表层土壤为研究对象,获取土壤的可见光近红外高光谱数据,基于折交叉验证进行初级学习器的训练采用堆叠泛化模型构建有机质高光谱估测模型,并比较各初级学习器模型和堆叠泛化模型的估测精度,以期为农田土壤表层有机质含量的高光谱快速定量估算提供科学依据和技术参考。实验部分 样本采集与测定土壤样品采自山西省内农田表层土壤(),土壤类型均为褐土。采样时间为 年月初,农田作物种植之前。按照等量、随机点混合的原则在每个采样单元相对中心的位置采集土壤样本,共采集 个土壤样本。所有样品手动清除杂物并自然风干,将每份土样分为两份,一份研磨过筛,用于土壤有机质

7、含量测定,另一份直接用于高光谱图像采集。土壤有机质含量测定采用重铬酸钾外加热法。其土壤有机质含量统计结果如图所示,个样品的有机质含量最小值为 ,最大值为 ,平均值为 ,标准差为 ,变异系数为 ,有机质含量数据服从正态分布。图土壤有机质含量统计 高光谱测定及预处理土壤近红外可见光高光谱图像采集使用美国 公司 的 扫 描 平 台,光 谱 范 围 ;可 见 光 和 近 红 外 光 谱 分 辨 率 分 别 为 和 。土壤样本装入直径约,深约 的容器中,抹平并压实,放到移动扫描平台上扫描一次得到一幅高光谱图像。平 台 参 数 设 置:平 台 物 距 ,移 动 速 度 ,曝光时间 。基于 软件,获取每个土

8、壤样本区像素点的光谱平均曲线,作为该土壤样本的光谱曲线。为了减少光谱测定过程中产生的误差,进一步提高反射率数据与土壤指标之间的相关性,基于 软件采取小波变换对光谱进行去噪平滑、对去噪光谱数据()图()分别进行倒数的一阶微分 ()图()、对数倒数的一阶微分 ()光谱变换 图()。图反射率及其变换的土壤光谱曲线 由图可知,不同土壤有机质含量光谱反射率均随波长的增加而增加,且随着波长的增加光谱反射率增长速度减慢;在 附近,土壤反射率值达到极大值;在 之间、之间、波段之间,土壤光谱反射率随波长增加而下降,在 和 附近处存在明显的水分吸收峰。经过倒数一阶微分和对数倒数一阶微分变换之后的光谱曲线的差异特征

9、更加突出,两种变换光谱曲线趋势基本一致。模型概述 模型光谱学与光谱分析第 卷随机梯度下降(,)是一种无约 束 迭 代 优 化 算 法,其 目 标 是 一 个 线 性 评 价 函 数(),其中,和模型参数通过最小化训练误差 式()求得。(,),()()()式()中,为损失函数,采用普通最小二乘法,为正则化项,是一个非负超平面。模型随机森林(,)是一种元估计器,采用 随机有放回采样方法生成个决策树模型,对于单个决策树模型根据最小均方差进行分裂,最终使用多棵树预测值的均值来提高预测精度和控制过拟合。其核心目标函数为:()(),其中,为正则化参数,是子树的叶子节点数量,()为预测误差,采用最小均方差度

10、量,即 ()()。模型 算法 是一种可以将弱学习器提升为强学习器的 集成算法,其算法使用加法模型 式(),损失函数为指数函数 式()其核心目标是每次迭代将当前基函数在训练集上的损失函数最小化,据此得到每个样本的更新权重。()()()(,()()()式中,为输入样本,为权重系数,为回归树。模型梯度 提升决 策树(,)是一种迭代决策树算法。模型定义为 式()(,)(,)(,)()式()中,为输入样本;为模型参数;为回归树;为每棵树的权重。每轮的训练是在上一轮的训练的残差 式()基础之上进行训练的,其核心目标是利用损耗函数的负梯度作为当前模型值。模型损失函数为平方差 式(),且平方损失函数是一个凸函

11、数,直接求导后得到训练样本均值()()。,(,()()()()()()(,()()()模型极限 梯 度 提 升 算 法(,)是一种 的可扩展可并行可高效率运算的机器学习系统。其核心目标是添加新树并拟合伪残差以减少损失函数。的目标函数由梯度提升算法中的损失函数 式()和正则化项 式()组成。其定义为()(,?)()()()()式中,为训练函数的样本个数,为单个样本的损失,为正则化项,和为设置参数,为决策树中所有叶节点值构成的向量,为叶节点个数。模型 是一种分层模型集成框架,其基本原理是由初始数据集训练出初级学习器,“生成”一个由各初级学习器的输出构成的新数据集用于训练次级学习器,产生一个比初级学

12、习器具有同等或更好的预测性能的元模型。本 研 究 堆 叠 泛 化 框 架(,)采用个 初 级 学 习 器 、和 和一个元模型 。为避免过拟合,采用折交叉验证方式(取),用训练初级学习器未使用的样本来产生次级学习器的训练样本。初始训练集被随机划分为个大小相似的结合,。令和?分别表示第折的测试集和训练集。给定个初级学习算法,初级学习器()通过在?上使用第个学习算法而得。对中每个样本,()(),则由所产生的次级训练预测数据集为(;),目标值为。于是,在整个交叉验证过程结束后,从这个初级学习器产生的次级训练集是 (,),然后 将用于训练次级学习器。堆叠概化框架如图所示。图堆叠泛化模型 各模型的实现均基

13、于 平台,各模型涉及的参数均采用默认参数。第期张秀全等:基于近红外可见光高光谱的堆叠泛化模型褐土有机质预测 模型精度验证模型预测能力及稳定性的评价通过决定系数(),其值越接近于,模型精度越高;绝对误差()、平均绝对误差()和均方根误差(),其值越小模型准确性越高;通过相对分析误差()进一步对模型的好坏进行评价,当 时,说明模型可较好预测,当 时,说明模型可粗略预测,当 时,说明模型无法预测。结果与讨论 相关性分析与特征波段选取对原始光谱、倒数一阶微分和对数倒数一阶微分与土壤有机质含量之间的相关性进行分析(图)。由图可知,有机质含量与原始光谱呈负相关,相关系数曲线均比较平滑,最大相关系数为 ,且

14、各相关系数均未达到 显著性水平;有机质含量与倒数一阶微分、对数倒数一阶微分的相关系数变化起伏较大,在正负值之间波动,绝对最大相关系数分别为 和 ,说明倒数一阶微分和对数倒数一阶微分变换处理都可以将波段范围内一些隐藏有机质光谱吸收特征表现出来,与对数倒数一阶微分相关系数相比倒数一阶微分与有机质含量的相关性更强,且在 显著性水平下表现更为突出。为此,选取倒数一阶微分光谱数据作为有机质含量预测光谱数据,并采用递归特征消除法进行敏感波段选 取,最 终 选 取 、和 个波段的光谱值作为预测有机质含量的特征波段。图有机质含量与光谱相关系数 多模型预测与比较将通过相关性与递归特征消除法筛选出的敏感波段作为,

15、和 回归模型的输入值,以土壤有机质的含量作为 目 标 值,将,和 回归模型的预测值作为 模型的输入值,以土壤有机质含量作为目标值,预测精度结果如表所示。通过预测结果可以看出,个初级学习器模型的决定系数由大到小依次为:(),(),(),()与个初级学习器模型相比,基于 构建模型的拟合优度最高达到了 ,均优于其他个模型。表模型预测精度对比分析 模型 个初级学习器模型的平均绝对误差()和均方根误差()由小到大依次为:(),(),()和 ();与个初级学习器模型相比,基于 构建模型的平均绝对误差 和均方根误差 值最低分别为 和 ,均低于其他个模型;模型的决定系数和相对分析误差 较其他算法平均和平均 分

16、别提高了 和 ,平均绝对误差、均 方根误差 分别为 和 ,较其他算法平均 和平均 分别降低了 和 ,优化效果明显,表明 模型的有机质预测具有较好的精度与准确性。进一步从相对分析误差 分析可知,模型和 模型的 分别为 和 ,表明 模型和 模 型 均 可 以 较 好的对有机质含量 进 行 预 测,且 模型预测要优于 ;,模型的 小于,表明其可以进行粗略的预测。分析种模型各个样本的预测值与实际值的绝对偏差,并确定预测值与测试集真实值之间的绝对值误差。结果如图所示。从图中可以看到,各模型绝对误差最大值由大到小依次为 模型为 、模型为 、模型为 、模型为 、模型为 ;各模型绝对误差最小值由大到小依次为 模型为 、模型为 、模型为 、模型为 、模型为 ;各模型绝对误差标准差由大到小依次为 模型为 、模型为 、模型为 、模型为 、模型为 ;表明 模型对于有机质含量的预测较稳定。进 一 步 将 绝 对 误 差 分 为 个 等 级,分 别 为 ,(,),(,),(,),进行频率分布统计,其结果如表所示。由表可知,模型对于有机质含量预测的绝对误差小于 占到 ,小于 占到 ,均高于其他个模型;绝对值误差超过

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 专业资料 > 其它

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2