1、第 卷第期 年月湖 北 林 业 科 技H u b e iF o r e s t ryS c i e n c ea n dT e c h n o l og yV o l ,N o A ug,收稿日期:作者简介:邹泽林(),男,工程师,主要从事森林资源监测和林业信息化应用等工作.S t a c k i n g集成学习模型在森林蓄积量估测中的应用邹泽林程霞刘紫薇黄鑫(国家林业和草原局中南调查规划院长沙 )摘要:为了探索S e n t i n e l 遥感数据在估测森林蓄积量中的适用性,以及开发一种提高蓄积量估测精度的集成学习算法,选择江西省兴国县为研究区,以S e n t i n e l 为遥感数据
2、源,利用B o r u t a算法进行特征选择后开发了一种S t a c k i n g集成学习模型,并且与ML R、KNN、S V R和R F四种基础模型进行对比.结果表明,相比于ML R模型,机器学习模型具有更强的蓄积量估测能力,利用机器学习模型估计森林 蓄积 量的RM S E降 低了 mh m,r RM S E降 低了 .并且相比于基础模型,利用S t a c k i n g算法将种模型进行集成后,模型的均方根误差进一步降低了 mh m,说明S t a c k i n g集成学习算法可以有效的提高森林蓄积量的估测性能.关键词:森林蓄积量;S e n t i n e l ;集成学习;遥感估
3、测中图分类号:S 文献标识码:A文章编号:()Ap pl i c a t i o no fS t a c k i ngE n s e m b l eL e a r n i ngM o d e l i nF o r e s tV o l u m eE s t i m a t i o nZ o uZ e l i n C h e ngX i a L i uZ i w e i H u a ngX i n(C e n t r a l S o u t hI n v e s t iga t i o na n dP l a n n i ngI n s t i t u t eo fN a t i o n a l
4、F o r e s t rya n dG r a s s l a n dA d m i n i s t r a t i o n C h a ngs h a )A b s t r a c t:I no r d e r t oe xpl o r e t h eap pl i c a b i l i tyo fS e n t i n e l r e m o t e s e n s i ngd a t a i ne s t i m a t i ngf o r e s t s t o c ka n d t od e v e l opa ni n t egr a t e dl e a r n i nga
5、lgo r i t h mt oi mpr o v et h ea c c u r a cyo f s t o c ke s t i m a t i o n,X i ng gu oC o u n ty,J i a ngx iP r o v i n c ew a s s e l e c t e ds t u dya r e a,u s e sS e n t i n e l a st h er e m o t es e n s i ngd a t as o u r c e,d e v e l opsas t a c k i ngi n t egr a t e dl e a r n i ngm o
6、d e lu s i ngB o r u t aa lgo r i t h mf o rf e a t u r es e l e c t i o n,a n dc o mpa r e s i tw i t hf o u rb a s i cm o d e l s,n a m e lyML R,KNN,S VRa n dR F T h er e s u l t s s h o w e dt h a tc o mpa r e dw i t ht h eML R,KNN,S VRa n dR F m o d e l s,t h es t a c k i ngi n t egr a t e dl e
7、a r n i ngm o d e lw a sm o r ee f f i c i e n t t h a nt h eML R m o d e l T h em a c h i n el e a r n i ngm o d e lh a ss t r o nge ra c c u m u l a t i o ne s t i m a t i o na b i l i tyt h a nt h eML R m o d e l,a n dt h eRM S Eo f f o r e s ta c c u m u l a t i o ne s t i m a t i o nu s i ngt h
8、 em a c h i n e l e a r n i ngm o d e lw a s r e d u c e dby mh ma n dt h e r RM S Ew a s r e d u c e dby pe r c e n t agepo i n t s I na d d i t i o n,t h eRM S Eo f t h em o d e lw a sf u r t h e r r e d u c e dby mh ma f t e r i n t egr a t i ngt h ef o u rm o d e l su s i ngt h eS t a c k i nga
9、lgo r i t h mc o mpa r e dw i t ht h eb a s em o d e l,i n d i c a t i ngt h a t t h eS t a c k i ngi n t egr a t e d l e a r n i nga lgo r i t h mc a ne f f e c t i v e lyi mpr o v e t h ee s t i m a t i o npe r f o r m a n c eo f f o r e s t s t o c kK eyw o r d s:f o r e s t s t o c k;S e n t i n
10、 e l ;i n t egr a t e d l e a r n i ng;r e m o t es e n s i nge s t i m a t i o n森林蓄积量是评估森林质量与碳循环的重要指标之一,准确获取森林蓄积量对森林经营与可持续发展,实现碳达峰与碳中和具有重要的意义 .将遥感影像与地面调查数据相结合,从遥感影像中提取与森林蓄积量有关的遥感变量并构建森林蓄积量估测模型是目前森林蓄积量获取的主要趋势.随着遥感技术的愈发成熟,通过遥感影像进行远距离、大尺度的森林蓄积量估测将会是代替人工实地调查的必要手段 .目前,通常通过提取遥感图像中的衍生变量与实地测量的蓄积量相结合,建立参数模型
11、或非参数模型的方法来估计区域尺度的森林蓄积量 .参数模型易于用户理解,可解释性强,并且具有较高的学习效率,例如多元逐步回归模型,偏最小二乘第期邹泽林,等:S t a c k i n g集成学习模型在森林蓄积量估测中的应用模型等 .但是参数模型往往要求变量间具有良好的线性关系,在环境复杂的森林条件下,遥感变量往往与森林蓄积量之间可能存在更复杂的非线性关系,因此参数模型在一定程度上无法快速诊断遥感变量与蓄积量之间的函数形式 .非参数模型对于数据的分布不做任何假设,适用于各种分布类似的数据,相比于参数模型更适合于预测复杂的数据.例如随机森林算法,支持向量机算法等 .相比于单个模型,集成学习算法可以组
12、合多个独立的分类器或回归器来生成一个更好更全面的预测模型.即使一个基础模型给出了错误的预测,其他基础模型也可以纠正并改进预测 .作为集成学习的代表,S t a c k i n g算法能够训练模型以组合其他基础模型,整合每个基础模型的优势与潜力,是一种具有更好预测性能的集成模型 .本研究的目标是结合S e n t i n e l 遥感数据与森林资源地面调查数据,开发一种S t a c k i n g算法,在江西省兴国县开展森林蓄积量遥感估测研究,并且测试S t a c k i n g算法在估计森林蓄积量中的潜力与价值.材料与方法 研究区概况江西省赣州市兴国县位于江西省中南部,介于东经 ,北纬 之
13、间.全县面积为 k m,主要地貌为低山和丘陵,属于亚热带季风气候,年均气温在 ,年均降水为 mm.全县的森林覆盖率为 ,主要树种为杉木C u n n i n g h a m i a l a n c e o l a t a,马尾松P i n u sm a s s o n i a n a和湿地松P i n u s e l l i o t t i i等(图).图研究区位置 遥感数据及预处理本试验中的遥感数据为S e n t i n e l 遥感影像(下载于h t t p:/e a r t h e x p l o r e r u s g s g o v/,分辨率m以内),获取日期为 年月,与地面调查时
14、间基本一致.由于该数据可以免费下载并且有较高的时间分辨率和空间分辨率,已经被广泛用于森林资源的检测.试验中下载的S e n t i n e l 数据为 A级别,经过大气校正和几何校正,因此只需要在E NV I 中进行地形校正.地面数据本试验地面数据来自 年江西省森林资源二类调查的样点调查数据中的针叶林样点(包括杉木 个,马尾松 个).样地位置分布如图所示,每个样地的大小为 m m(亩),样地的西南角坐标由G P S获取.对样地内胸径大于c m的树进行每木检尺并根据一元材积方程计算单株木的材积,最后对样地内所有树的材积求和湖北林业科技第 卷得到样地的森林蓄积量(表).表地面数据调查信息表树种样本
15、数量/个最小值/(mh m)最大值/(mh m)平均值/(mh m)标准差/(mh m)变异系数杉木 马尾松 总样本 特征提取与筛选 植被指数与纹理特征植被指数被证明可以反映森林的生长状态,已经被广泛地应用于森林蓄积量的估测中.例如比值植被指数(R V I)和增强植被指数(E V I)可以与绿色植被的叶绿素相关;归一化植被指数(N D V I)和红绿植被指数(R GV I)可以反映植被覆盖度和生长状态,.此外,相关研究表明纹理特征具有提升森林蓄积量估计精度的潜力 .为了进一步挖掘S e n t i n e l 数据估测森林蓄积量的潜力.利用预处理后的S e n t i n e l 数据提取了个
16、单波段变量(b l u e,g r e e n,r e d,v e g e t a t i o nr e de d g e/,N I R,SW I R a n dSW I R),种植被指数(R V I,D V I,N D V I,A R V I,E V I,R GV I)和纹理特征(均值、方差、协同性、对比度、相异性、信息熵、二阶矩和相关性)作为建模的候选变量.特征选择从S e n t i n e l 数据中共提取了 个遥感变量,由于将所有变量都带入模型中会造成信息的冗余和维数灾难,因此在构建蓄积量的估测模型之前进行变量的选择是有必要的.B o r u t a特征选择方法是K u r s a和R u d n i c k i在 年基于随机森林算法提出的一种全相关的特征选择包装算法.该方法将原始属性的重要性与随机获得的重要性进行比较,并逐渐消除不相关的特征以稳定测试,从而对相关特征执行自上而下的搜索.使用B o r u t a算法进行特征选择主要步骤如下:()将所有特征打乱顺序后得到阴影特征矩阵,再将新的矩阵拼接到原始的特征矩阵之后得到新的特征矩阵.()用新的特征矩阵训练随机森林模型得到原