1、第 卷 第 期 年 月测绘与空间地理信息 ,收稿日期:基金项目:国家科技基础资源调查专项();湖南省教育厅科学研究优秀青年项目();国家级大学生创新训练项目 面向乡村振兴的融合多源遥感数据返贫监测研究()资助作者简介:陈 果(),男,湖南衡阳人,测绘工程专业硕士研究生,主要研究方向为遥感影像分类方法。通信作者:李乐林(),男,湖南浏阳人,副教授,博士,年毕业于武汉大学测绘遥感信息工程国家重点实验室摄影测量与遥感专业,主要从事遥感应用与可持续发展研究工作。多特征优选的 影像随机森林分类研究陈 果,李乐林,陈 浩,彭焕华,赵 茜(湖南科技大学 测绘遥感信息工程湖南省重点实验室,湖南 湘潭;湖南科技
2、大学 地球科学与空间信息工程学院,湖南 湘潭;湖南科技大学 地理空间信息技术国家地方联合工程实验室,湖南 湘潭)摘要:为了探寻更高效、更准确的土地利用分类方法,本文选取遥感光谱、影像纹理特征、植被指数、生物物理指数及地形特征信息,构建多特征随机森林土地利用分类方案。以山西省晋中市祁县为例,设计 种方案对研究区域 影像数据进行分类,采用混淆矩阵进行精度评估。研究结果显示,合理地选取特征变量可以提高随机森林分类的精度,结合不同特征组合随机森林分类精度和袋外数据误差进行特征重要性比较:土壤反射性指数生物物理指数纹理指数地形特征;在相同分类条件下与其他机器学习分类方法(支持向量机、神经网络)相比,基于
3、多特征随机森林优选的方法总体精度达到,系数为,提取效率更快、精度更高。关键词:土地利用分类;特征优选;随机森林;生物物理指数;中图分类号:文献标识码:文章编号:(),(,;,;,):,:;(,),:;引 言随着社会发展和城市的扩张,我国土地利用类别不断变换,对土地利用类别进行精准的监测和分析可以有效地管理国家资源,实现经济效益的最大化。遥感数据以其获取成本低、携带信息多样、处理效率高的优势已成为土地利用分类的重要数据来源。随着复杂地形分类精度对光谱信息的更高要求,系列第二颗卫星 于 年 月由欧空局成功发射,该卫星具有多光谱、高分辨率、覆盖范围宽等优势,为土地利用研究提供了新的数据支持。监督分类
4、允许人工参与分类,通过实地考察或目视解译加强对地物类别的准确判定,提高影像分类精度。随着更高精度的要求,基于机器学习的分类方法如决策树、支持向量机、人工神经网络逐渐取代传统的监督分类方法(最大似然、最邻近等),它们不仅可以捕获土地利用类型的非参数特征,并且不依赖属于任何特定统计分布的数据。其中决策树是基于 规则的学习算法,解释性强,符合人类的直观思维,分类精度最好。随机森林(,)由多棵决策树组成,无须特征选择,将决策树群的最多分类结果作为输出结果,对于不平衡或者特征缺少的高维度数据集仍展现优异的分类精度。近年来,随机森林算法广泛应用于数据量巨大、特征复杂的遥感影像处理和分析中,是国内外学者研究
5、的热点。将 特征信息作为影像分类的辅助数据,并将多特征融合技术与随机森林算法相结合的方法在土地利用分类中的研究较少。本研究基于 遥感影像,融合生物物理指数、纹理指数、土壤反射性指数、光谱信息、遥感指数作为随机森林分类特征集,提取祁县的土地利用信息,并与神经网络、支持向量机方法对比,分析分类结果以及随机森林分类算法的优越性。研究区域和数据 研究区域祁县地处于晋中市西南部,总面积约为 ,其中耕地面积约 ,占总面积的。主要农作物为玉米、小麦,还有蔬菜和园林水果,其中玉米、小麦面积约为 。研究区域西北部为平原,东南部为山区,总体趋势为东南西北走向。暖温带大陆性气候使得研究区域夏季降水多、春季降水少,降
6、水在 月最为充足,不同季节气候变化明显。数据来源本文使用的 影像数据下载于欧洲航天局()的数据共享网站(:),波段从可见光到短波红外:处有 个波段,经典宽带可见蓝色()、绿色()、红色()和近红外();处有 个波段,植被红边光谱域中有 个窄波段(、和)以及 个较长的 波段(和 )和 个 波段,专门用于大气校正(用于气溶胶,用于水蒸气)和卷云探测()。卫星数据的 个优势:()其 的空间分辨率相对较高;()其辐射测量包括 个植被红边带;()获取的 级数据是亚像元级几何精校正和正射校正的,只需大气校正即可。研究内容 数据处理实验数据选取覆盖研究区域 年 月 日的一幅无云 遥感影像,无须再镶嵌裁剪操作
7、。利用欧洲航空局()专门提供的 插件对 级影像进行大气校正得到 级影像,以及 系列影像处理软件 将影像中 种不同分辨率波段(、)重采样成 ,再调用各种特征指数计算模块,得到植被指数、纹理特征、土壤放射性指标、生物物理指数,最后进行波段融合、波段裁剪得到目标待分类影像。特征选取本文选取波段特征共 个,其中光谱特征 个,纹理特征 个,植被指数特征 个,土壤反射性特征 个,生物物理指数 个,以及地形特征 个。特征变量集见表。表 特征变量集 特征集特征变量光谱特征、植被指数归一化差异植被指数 比率植被指数 差异植被指数 垂直植被指数 植被红边位置指数 土壤反射性指数颜色指数 第二亮度指数 发红指数 纹
8、理特征对比度 相异性 同质性 角二阶矩 能量 最大概率 熵 均值 方差 相关性 生物物理指数叶面积指数 吸收的光合有效辐射分数 植被覆盖率 地形特征高程 坡度 坡向 光谱指数反映不同地物自身的电磁辐射规律,植被 测绘与空间地理信息 年色素吸收决定着可见光波段的光谱反射率,细胞结构决定近红外波段的光谱反射率,而水汽吸收决定了短波红外的光谱反射率特性。另外,数据独有的 个红边波段,作为强烈的红色吸收对近红外反射的拐点,包含了植被叶绿素含量和生长状况的信息。植被指数主要反映植被在可见光、近红外波段与土壤背景之间差异的指标,各个指数在一定条件下可以用来定量说明植被的生长状况。纹理特征反映了图像灰度模式
9、的空间分布,包含了图像的表面信息及其与周围环境的关系,更好地兼顾了图像的宏观结构与微观结构,在分类中可以弥补光谱特征空间信息的不足。土壤反射性指数与土壤的类型以及其中有机质的含量、水的含量和氧化铁的含量关系密切。第二个亮度指数()表示卫星图像亮度的平均值,红度指数()可以识别土壤颜色变化;颜色指数()可以有效区分田间的土壤,提供了与 和 互补的信息,有助于更好地了解土壤表面的演变。地形指数对不同地物的空间分布有着直接或间接的影响,将高程、坡度、坡向等地形数据作为图像的波段之一有助于提高分类结果的准确性。生物物理指标表征了植被的功能。叶面积指数()通常定义为每单位地表面积的总绿叶面积的一半,吸收
10、的光合有效辐射分数()测量 光谱中叶子吸收的辐射比例,植被覆盖率()是植被垂直投影面积与总表面积的比值。对 个不同特征组合模型的 误差分析如图 所示。从图中可以看出,特征个数从 增加,精度有逐渐增加的趋势,在特征个数为 时,精度达到最高值 ;特征个数从 增加到,精度有微小的降低趋势,但变化不大;特征个数过少,会导致分类精度不高;特征个数过多,模型复杂度过高,使得运行时间过长,并且容易发生过拟合而使得分类精度不增反降。因此,根据 袋外数据误差对 个特征变量进行重要性排序,如图 所示,选取特征重要性列前 的特征作为基于特征优选的随机森林模型的输入特征,从高到低依次为、。图 特征数量与 精度关系图
11、图 特征重要性排序图 样本选取参考 高清影像,通过目视解译随机选取训练样本和验证样本,保证训练样本和验证样本服从同一分布条件。依据土地利用现状分类()标准中的一级分类,结合 年祁县统计年签数据,确定了无林地、林地、耕地、水体、建设用地、道路、草地、裸地共 种类别。总体样本数量为,以的比例分为训练样本与验证样本。详细样本数目见表。表 地物分类样本数量 地类训练样本验证样本合计无林地林地耕地 水体道路裸地 建筑用地草地合计 研究方案本研究设计了 种方案,见表。方案 依次在光谱指数和植被指数组合中加入土壤反射性指数、地形指数、生物物理指数和纹理指数,采用随机森林方法分类。方案 分别对特征优选后的数据
12、集采用随机森林、支持向量机和神经网络分类方法,通过混淆矩阵进行方案的精度评估。随机森林分类随机森林()是 发明的一种分类和回归树技术。随机迭代地对数据和变量进行采样,以生成一大组分类和回归树或森林;其 个有用属性是内部误差估第 期陈 果等:多特征优选的 影像随机森林分类研究计、估计变量重要性的能力和处理弱解释变量的能力;其分类器只需要定义期望的分类树的数量 和每个节点用于生长树的预测变量的数量 来生成预测模型。随机森林已被广泛应用于地球科学,包括模拟森林覆盖、土地利用、土地覆盖和面向对象的映射。表 组合方案信息 方案特征组合分类方法光谱植被指数土壤反射性指数光谱植被指数地形特征光谱植被指数生物
13、物理指数光谱植被指数纹理特征特征优选组合特征优选组合特征优选组合 随机森林的原理:有放回的每次从一个样本容量为 的原始样本抽取 次。抽取的每个训练样本作为决策树根节点处的样本用来训练 棵决策树;随机从根结点样本的 个属性中选取出 个属性(),从这 个属性中采用某种决策来选择 个属性作为该节点的分裂属性;如果下一次该节点选出来的属性是刚刚其父节点分裂时用过的属性,则该节点已达到了叶子节点,则不再分裂。这样训练 棵决策树,构成随机森林。精度评估混淆矩阵()也被称作误差矩阵,主要用于比较分类结果和实际测得值之间的混淆程度进行精度评估。本文采用总体精度()、系数、生产者精度()和用户精度()个指标作为
14、评价标准。实验结果及分析 随机森林分类结果利用随机森林多特征优选分类中,树的数量确定为,特征变量选取 个,总体精度和 系数达到了最佳,各地物类别分类精度结果见表。多特征优选随机森林分类总体精度为,系数达到(见表 方案)。说明该方法用于土地精准分类是可行的。表 多特征优选随机森林分类精度 地类水体建筑用地林地裸地草地道路耕地无林地总计 生产者精度()用户精度()水体建筑用地 林地裸地草地道路耕地 无林地总计 生产者精度():指被正确分到第 类的像元数与第 类的全部参考样本总数的比值。公式如下:式中,表示被正确分类为第 类的数量;为第 类的全部参考样本总数。用户精度()指被正确分到第 类的像元数与
15、全部像元中被分类到第 类的比值。公式如下:式中,表示被正确分类为第 类的数量;为全部像元中被分类到第 类总数。精度对比分析随机森林分类选取不同的特征组合对分类精度有着一定的影响,方案 通过控制变量法比较加入土壤反射性指数,地形特征,生物物理指数,纹理特征,见表,其中加入土壤反射性的组合(方案)分类精度最高,相比于方案、,总体精度依次高出、和,系数则分别高出、和 个百分点。表 各方案精度对比 方案总体精度()方案 中,优选后的特征集通过随机森林法,支持向量机和神经网络 种机器学习的监督分类方法,算法的分类精度最高,总体精度分别高出支持向量机和神经网络 和,系数分别高出 和 个百分点。从各个地物类
16、型的生产者精度和用户精度上看(见表),多特征优选随机森林方法在建筑用地、林地、裸地、草地、道路以及无林地的划分上都要优于支持向量机和神经网络方法,在耕地和水体的划分上,神经网络略显优势。测绘与空间地理信息 年表 三种分类方法的生产者精度和用户精度比较(单位:)(:)地类随机森林 随机森林 支持向量机 支持向量机 神经网络 神经网络 水体建筑用地林地裸地草地道路耕地无林地 如图 所示,从效果图看,随机森林分类结果细节更好,错分误差更小,且更接近于真实地况,支持向量机分类效果最差。图 种方法的分类结果对比图 结束语土地利用 土地覆盖分析对资源的可持续发展具有积极意义,土地的不合理规划将会导致资源的浪费,对土地利用类别精准划分在城市和区域规划、生态系统服务等领域发挥重要作用。本研究基于 影像,通过融合影像的特征信息,构建了多特征随机森林分类模型,对祁县土地利用分类进行了研究。)融合土壤放射性指数、生物物理指数等多种遥感特征信息,设计不同的方案组合,利用混淆矩阵精度评估研究了不同特征组合对分类结果的影响,另外根据随机森林袋外数据()误差反映了特征在分类中的贡献率,从而进行了特征集的优选。)通过