1、第 卷 第 期 年 月测绘与空间地理信息 ,收稿日期:作者简介:王薪宇(),男,山东济南人,遥感科学与技术专业在读本科生。基于高光谱数据的土壤速氮含量反演模型比较王薪宇(山东农业大学 信息科学与工程学院,山东 泰安)摘要:以土壤类型丰富的陕西省横山县为研究区域,采集该区域的 个土样。在对原始数据进行去噪处理和特征变换后,利用神经网络原理、多元线性回归分析法、模式识别理论建立土壤速氮含量反演模型。研究结果表明,反演模型的精度由高到低依次为神经网络模型、多元回归模型、模式识别模型。其中神经网络模型的均方根误差约为,决定系数最大,达到了 。因此,利用神经网络进行土壤速氮含量反演具有较好效果。关键词:
2、土壤;速氮含量;多元线性回归;神经网络;模式识别中图分类号:文献标识码:文章编号:()(,):,:;引 言土壤是陆地生态系统中重要的组成部分,其功能过程对全球变化存在响应和反馈。改革开放以来,随着工业化、城镇化、农业集约化的发展以及全球气候变化,我国人地资源之间矛盾变得越来越突出。我国作为一个传统的农业大国,如何精确、快速地分析出土壤组分及构成,对于指导农业生产和实施精准农业,从而促进农业产量和效率的提升至关重要。传统的土壤成分监测方法大都在实验室中进行分析,这些方法大都有耗时长、易产生误差、不适于大批量样本分析的缺点。目前,随着遥感技术的发展,尤其是高光谱技术的快速发展,为大面积精准预测土壤
3、各项性状指标含量提供了新的可能。国内外不同学者对利用高光谱技术反演土壤各项性状指标做了不同的研究。于雷等基于偏最小二乘法利用高光谱反射率数据反演了土壤有机质含量,取得了良好的效果,并且在对有机质的研究过程中有学者发现土壤有机质含量和反射率的一般规律,即有机质含量越高,反射率越低;吴龙国等基于多元线性回归法和主成分分析法等方法比较了不同土壤水分预估模型的精度,从而选出了最佳反演模型。以上的研究和其他有关土壤性状指标的研究主要集中于对土壤有机质和含水量的光谱反射率的规律以及相应的反演模型精度的讨论。土壤中也含有大量的铁、钾、镁、铝等矿质元素和氮、磷等养分,这方面研究相对较少,同时对于速氮含量反演模
4、型对比的研究也相对较少。因此本研究以基于一阶微分的高光谱土壤反射率为特征指标,利用线性回归、神经网络和模式识别的方法构建相应的速氮含量预测模型,并讨论模型的精度,为选择合适的土壤速氮指标反演模型提供帮助。材料与方法 研究区概括研究区位于陕西省横山县。横山县处于陕西省北部的榆林市境内,坐落于明长城脚下,无定河中段,毛乌素沙漠南缘,处于黄土丘陵沟壑区。横山县属于温带大陆性气候,冬季寒冷,夏季炎热,常年日均气温为 ,年际、月际气温变化较大,平均年降水量约 ;其地势总体西高东低,北部地形平坦,南部错综复杂,沟壑纵横;境内河流众多,水源充沛,土壤类型多样,因此具有研究的典型性。本文以陕西省横山县采集的
5、个土壤实测样本为目标展开研究。光谱预处理和特征变换实验研究前后对比中已经发现,噪声对光谱特征影响较大,平滑前后的结果存在部分差异(如图 所示),因此需要对原始光谱数据进行平滑处理。本研究采用 点加权平均法对原始光谱数据进行平滑处理,代表当前的反射率位置,取其及前后各 个波段处的反射率的值,进行加权计算,得到目标波段处新的反射率值。公式如下:()图 平滑前后噪声对比图 光谱特征变换是提高反射率和性状指标相关性的重要方法之一。光谱特征变换的方法有很多,目前常用的方法有对数一阶微分变换、指数变换、倒数变换、包络线特征变换法、平方变换等方法。光谱微分变换是常用的光谱增强方法,其光谱信噪比非常敏感,对不
6、同的背景和噪声有去除作用。本研究采用对数一阶微分变换进行光谱特征提取,波长间隔 。相应的光谱一阶微分计算公式如下:()()()()式中,代表 处的反射率大小,代表 处的反射率大小,为两处的波长之差,因本次研究用的是 的波长间隔,所以 。速氮含量反演建模方法根据本研究的研究目的,采用基于多元线性回归的方法、神经网络的方法和模式识别的方法构建土壤速氮含量的反演模型。基于多元线性回归的建模方法多元线性回归模型是一种常用于拟合多因素变量和因变量的回归分析模型,其研究一个因变量和多个自变量的对应关系,从而构建出相应含参的多元线性方程用于求解因变量的拟合值。多元线性回归模型的建立一般要经过评定所有特征指标
7、对因变量的影响,从而建立最优的多元线性回归方程。为了跟神经网络模型和特征识别模型比较,本研究以 种特征指标构建相应的多元线性回归模型。多元线性回归模型的一般公式如下:()其中,是估计值,是常数,为特征指标的参量,为相应样本的特征指标的值。基于 神经网络的建模方法随着近年来人工智能算法的不断发展,机器学习水平和智能水平不断提高,研究成果已经广泛应用于各行各业中。基于人脑信息处理机制的人工神经网络在处理模糊非线性关系的问题上,具有良好的适用性。神经网络()是一种按照误差逆向传播算法训练的多层前馈神经网络,其对处理非线性函数问题非常成熟,应用领域广泛。一个传统的 神经网络结构包含三层:输入层、隐含层
8、和输出层。通常输入层神经元节点数可以认为是特征指标变量的数量;隐藏层节点依照输出层节点数按经验进行选取,一般隐藏层多可以提高网络精度,但是同时会让神经网络复杂化,严重则出现过拟合的现象,即在该样本中适用却在其他样本中难有普遍性。在本研究中特征指标有 种,取特征指标的 作为隐含层的节点数,研究 和 两类神经网络模型。基于模式识别的建模方法模式是供模仿所需的理想样本,通俗来讲即从大量样本中找到跟待测测样本的研究对象相同或者相近的部分。依据多样本的光谱信息去预估待测样本的属性信息也属于模式识别范畴。模式识别分类算法有距离算法、相近度和相像度等,判别准测参考最大贴近性原则。于涛通过对模糊识别土壤有机质
9、研究,得到加权欧式距离贴进度模型的估测精度最高。因此本研究采用了加权欧氏距离算法与被测样本进行计算,并按照最大贴进度为原则进行选取。研究过程及结果 特征提取对 个样本的光谱反射率经过平滑处理,按照上述倒数变换、平方根变换、一阶线性微分和对数一阶微分变换的方法计算相应的特征变换值。将所得的特征变换提取值与地面实测土壤速氮含量进行相关性分析,相关性分析结果如图 所示。图 表示不同光谱特征变换方法和速氮含量的相关系数图,其中 是原始的反射率的相关系数曲线、是原始反射率倒数的相关系数曲线、()是原始反射率平方根的相关系数曲线、是反射率一阶微分变换的相关系数曲线、()是反射率对数的 测绘与空间地理信息
10、年一阶微分相关系数曲线。图 多种光谱变换反射率与速氮含量相关系数图 通过上述的相关分析结果可知,微分变换后的光谱反射率相关系数值有了明显提高,并且大部分处于负相关。对比上述对数和原始的两类一阶微分变换,对数一阶微分特征变换有几处比原始光谱一阶微分有明显的差异的地方,比如在 和约 处波长的相关系数值比原始光谱一阶微分高,所以选择对数一阶微分变换的反射率变换值进行特征提取。除了在 和 处有较高的相关性外,在 和 附近也具有较大相关性。经过反复实验选择中心波段为 、作为本研究的特征光谱波段并将其提取出来,为模型建立做准备。模型建立将 个样本的特征波段的变换值和对应的速氮含量提取出来,然后导入到 软件
11、中进行多元回归建模和神经网络建模,同时也将数据导入到带有模式识别公式的表格中进行模式识别建模。)选择前 个样本数据,进行多元线性回归分析。经过回归分析建模(如图 所示)显示多元回归模型的相关性大约为,其决定系数大约为,虽然决定系数较低,相比于土壤有机质和含水量的相关性来讲,效果已经较好;剔除几个异常的样本点后,相关系数可达到,同时决定系数增加至约,提取其模型公式,为检验样本的拟合做准备。)固定神经网络输入层节点数为,最小训练速率为,允许误差为,最大迭代次数为,只改变隐含网络层数,且每一节隐含层节数为。本研究中神经网络建立的模型有两种:代表隐含层为 时的模型,代表隐含层为 时的模型。选择前 个样
12、本带入进行训练建模,剔除异常点然后用于后 个样本估测。)同样选择前 个样本数据作为模式识别的训练样本,利用六个特征指标的相关系数大小作为确定其相应指标权重大小的依据,最终利用 个样本构建了速氮含量的预测模型(如图 所示)。精度检验利用训练样本构建的多元线性回归预测模型对后 图 多元线性回归预测模型 图 模式识别预测模型 个检验样本进行回归计算并与其实测值比较;将后 个检验样本导入 软件中并利用经过训练样本构建的神经网络预测模型进行预估,然后跟实测值比较;同样把后 个检验样本带入到模式识别预测模型中进行赋值并跟实测值比较。)多元线性回归的预测模型精度。将后 个样本导入到 表格中,参照上步建立的多
13、元回归模型公式,把后 个样本的六个特征参数依次代入其中进行计算,完成后得到该 个样本的预测值,预测值和拟合值可生成相应的曲线。该模型中的多元线性回归的公式为:()计算完成后,把预估值跟实测值进行线性拟合并计算均方根误差,拟合结果如图 所示。结果表明剔除异常样本的多元回归模型估测的结果的决定系数为 ,其均方根误差约为。图 多元回归模型预估 第 期王薪宇:基于高光谱数据的土壤速氮含量反演模型比较)神经网络预测模型精度。参考训练样本在 中导入后 个样本的特征指标,得到该 个样本的估测值。同理把该估测值带入到 表中处理,步骤上同,最终结果如图 所示。由结果可知神经网络模型、预估精度相差较大。神经网络模
14、型 的相关系数达到了,神经网络模型 的相关系数为,说明当隐含层为 的时候的模型拟合效果比隐含层为 时的模型拟合效果要好。计算两个模型的均方根误差,结果显示 模型的均方根误差为约为,模型的均方根误差约为,说明神经网络模型 的预测精度比神经网络模型 的精度好。图 神经网络模型预估 )模式识别模型精度。将后 个样本依次带入 模式识别的相应待预测样本行中就可以得到相应样本的估测值,估测值和实测值同样在 中比较,后续步骤和上述相同,结果如图 所示。模式识别预测模型的决定系数为 ,其均方根误差约为。图 模式识别建模预估 结束语本研究采用陕西省横山县 个土壤样本的反射率信息探讨了不同的速氮含量反演模型,经过
15、对数一阶微分变换后提取出了特征指标,前 个样本用于反演模型建模,后 个样本用于精度检验。本研究的模型构建方法有 种:多元线性回归模型、神经网络模型、模式识别模型。经过对 个模型的精度分析,可明显看出神经网络模型 的预测精度最高,其次为多元回归模型和神经网络模型,精度最差的为模式识别模型。神经网络预测模型的决定系数达到了 ,均方根误差约为,这和多元回归模型的均方根误差接近,略低于其值。在神经网络模型中,神经网络模型 和神经网络模型 的预测模型精度存在较大差异,其决定系数和均方根误差相差较大,这说明神经网络分析隐含层及其节点数对反演结果有重大影响。效果最差的为模式识别模型,其决定系数仅为 ,均方根
16、误差约为。在多元线性回归模型构建过程中,未剔除异常点前,其决定系数才达到约,同样在神经网络模型中未剔除异常点前模型的相关系数也较低,因此样本异常点会极大地限制模型的预测精度。本研究讨论了速氮含量反演模型的精度差异,为土壤速氮含量模型的选取提供了案例和参考依据。本实验异常点可能是样本测量出错或者其他因素导致的,这有待后续研究证明和完善。本实验中特征指标的选取是反复实验选取的,并没有描述土壤其他性状指标的交互作用及其影响力大小,且本研究中土壤类型多样包括了绵沙土、风沙土、黄绵土、淤土等土壤类型,这些因素都可能限制预测模型的精度。因此,后续开展基于多种性状指标交互作用规律的不同土壤类型速氮含量的研究对于构建完善的高精度土壤速氮含量预测模型非常重要。参考文献:张旭博,孙楠,徐明岗,等全球气候变化下中国农田土壤碳库未来变化中国农业科学,():赵其国提升对土壤认识,创新现代土壤学土壤学报,():郝国辉,邵劲松土壤有机质含量测定方法的改进研究农业资源与环境学报,():于雷,洪永胜,耿雷,等基于偏最小二乘回归的土壤有机质含量高光谱估算 农业工程学报,():,():吴龙国,王松磊,何建国基于高光谱技术的