1、第 卷第期测绘工程 年月 :基于 和机器学习的不透水面提取研究 以成渝地区为例夏军,刘洪江,朱林富,段捷(乐山师范学院 旅游学院,四川 乐山 )摘要:随着城镇建成区范围不断扩大,不透水面面积急剧扩张,对区域生态和经济产生严重影响,对不透水面的快速、准确识别显得尤为重要。文中以成渝地区双城经济圈的两大核心城市为研究对象,基于 云平台和 影像,构建光谱波段、光谱指数和纹理指数的分类特征,利用最小距离()、分类回归树()、支持向量机()、随机森林()和朴素贝叶斯()种机器学习算法,提取不透水面信息。结果表明,算法效果最好,提取结果与实际最相符,和 算法精度差异不大。本研究可为不透水面提取提供方法和技
2、术参考。关键词:双城经济圈;不透水面;机器学习中图分类号:文献标识码:文章编号:()收稿日期:基金项目:四川省科技计划资助项目();四川旅游发展研究中心课题(,);乐山师范学院科研启动项目()第一作者简介:夏军(),男,讲师,博士 :,(,):,:(),(),(),()(),:;不透水面是指人工修建且水体难以渗透到土壤的覆盖类型。城镇区域不透水面主要分布在房屋、路面、广场和停车场等区域,中间夹杂着植被和水体;城乡交接处不透水面一般还存在着裸地,目前正处于开发阶段,地表特征变化速度快,可能在一年之内从植被或者水域变成裸地,再变成不透水面;在乡村区域,不透水面主要是农村宅基地、道路和工矿企业等,一
3、般呈零星分布,小片聚集,或者沿道路、河流延伸。随着城镇化速度的加快,建成区规模不断增大,不透水面覆盖度持续上升,区域地表过程发生变化,对生态特征造成严重影响,同时反过来制约着城镇化的发展。因此,及时、准确的获取不透水面分布是十分必要的。于 年提出植被不透水面土壤模型,并采用遥感技术对城市不透水面信息进行提取。徐涵秋于 年创建了归一化差值不透水面指 数(,),可用于大范围、快速、自动提取不透水面信息。宋林林等采用归一化差值不透水面指数对洱海流域不透水面进行了提取和格局分析。和尚冉冉在 基础上进行改进,建立修正的 归 一 化 不 透 水 面 指 数(,)。曹勇等创建一种抑制裸地的不透水面与裸地区域
4、指数(,)。张友才等采用随机森林方法,利用 影像构造遥感指数,对南京长江沿岸保护区域提取了 年和 年两期不透水面信息。黄菲等提出一种新型的复合权重双差值不透水面指数(,),通过波段的次差值扩大不透水面和裸地的光谱表现差距,并以植被指数和夜光灯数据作为约束权重,以此提高热红外波段中的不透水面信息比重的同时,降低噪声地物的干扰。到目前已发展了诸多不透水面遥感提取方法,主要有光谱混合分析法 、决策树法、光谱指数法 等,特别是 云平台的出现,大大提高了区域尺度乃至全球尺度的应用效率。例如,黄昕等 利用 云平台和 影像,采用随机森林分类方法,研发一套全球不透水面产品,与现有全球产品相比,具有最长的时间跨
5、度(年)和最高的精度。遥感数据源的使用也多源化,如 、和灯光数据相结合,分辨率也越来越高,例如:融合 和光学影像进行城市尺度的不透水面制图,分辨率达 。马帅 运用 平台和随机森林算法,利用夜间灯光和 数据提取了我国大城市群的不透水面面积,总体精度大概为 。夏宇等 借助 云平台提出以多时相升降轨 和光学,辅以夜间灯光和 数据,对越南南部、阿联酋迪拜和孟加拉国南部等困难地区不透水面进行提取。随着机器学习算法发展,陈磊阳 基于 深度学习框架提出了一种基于改进的 卷积神经网络的不透水面提取新方法。在不透水面信息提取时,对于不同区域尺度问题,如何选择遥感影像和提取方法,等 用种不同空间分辨率的影像和 种
6、不透水面提取方法,进行了个区域的试验,为分辨率影像和方法的选取提供了指导。年 月,中共中央国务院印发了 成渝地区双城经济圈建设规划纲要,这将大力推进成渝地区双城经济圈建设和发展。文中以成渝地区双城经济圈的两大核心城市(成都市和重庆市主城都市区)为研究对象,基于 云平台和 遥感影像,构建光谱波段、光谱指数和纹理指数特征,探讨种机器学习算法在成渝地区双城经济圈两大核心城市的不透水面信息提取效果。研究区域和数据源 研究区域概况成渝地区双城经济圈位于长江上游,地处四川盆地,东邻湘鄂、西通青藏、南连云贵、北接陕甘,是我国西部地区发展水平最高、发展潜力较大的城镇化区域。选取成渝地区双城经济圈的成都市和重庆
7、市(重庆市主城都市区)为研究对象,图为研究区地理位置及高程图。图研究区地理位置及高程成都市位于四川盆地西部、成都平原腹地。西面为龙门山脉,海拔最高约为,地势由西北向东南倾斜。成都市下辖 个市辖区、个县、代管个县级市,总面积达 。重庆市主城都市区包括重庆市“中心城区”和“主城新区”共 个区,面积为 ,位于重庆市西南部,西面和北面邻接四川省,南临贵州省,东面为重庆市其他区县。地形呈西北部和东南部高,长江河谷地势低,最高点在东南部的大娄山海拔 。数据来源和处理 数据来源 是一个用于地理空间数据集的科学分析测绘工程 第 卷和可视化的平台,通过它可以进行大尺度海量数据的获取、处理和分析。采用 卫星影像提
8、取不透水面信息,影像数据来源于 云平台,时间从 年月日至 年 月 日。从 云 平 台 的 数 据 目 录 选 取“,”作为数据源,数据集标 识 为“”,包 括 传感器的地表反射率和地表温度等,文中采用波段参数见表。覆盖研究区的 影像条带号和行编号分别为:成都市,列号为 ,行号为 ,共景;重庆主城都市区,列号为 ,行号为 ,共景。表“”数据集的波段参数波段名波段范围分辨率描述 超蓝、沿海气溶胶 蓝色 绿色 红色 近红外 短波红外 短波红外 算法生成的像元质量属性 数据处理 云平台提供的“”数据集产品已进行辐射校正、大气校正和地形校正处理,波段为地表反射率,波段为像元质量属性。在 代码编辑器中通过
9、云平台对全部影像进行去云处理(需要用到 波段),经过去云处理后,云层覆盖的像元以及云层阴影将被掩膜掉。再对全年影像像元进行中值计算,然后通过拼接合成一幅完整的研究区影像,该影像包含波段反射率数据。需要注意,如果是全年被云和云影覆盖的像元,最终得到的像元值为空(),将不会参与不透水面提取计算。由于四川盆地特殊的地理环境,特别是在盆地边缘的山区,局部地区经常被云层覆盖,由此得到的影像数据会出现部分像元为空值现象。成都市和重庆市主城都市区影像数据空值像元数分别为 个和 个,占总像元数比例分别为 和 ,主要分布于成都市西面的龙门山脉,以及重庆市东南方向的大娄山脉。研究方法 不透水面提取方法 云平台除了
10、提供海量的影像数据,还能实现影像的预处理、分类和地理分析算法等。本研究采用 支持的机器学习算法提取不透水面信息,即通过构建分类器,选取目标样本,利用已知样本对分类器进行训练,从而达到对未知样本的识别。提供了丰富的机器学习的分类方法,主要包括分类回归树()、支持向量机()、随机森林()、朴素贝叶斯()、最小距离()、决策树()和梯度提升树()等算法。采用 、和算法进行不透水面信息的提取,这种算法可以在 代码编辑器进行调用。算法是 年提出,利用已知样本构建二叉决策树,然后使用验证数据集选择泛化能力最佳的子树。算法是 在分类树的基础上提出的,运用集成学习的思想,改变了 的构造方法,在每个分割节点都使
11、用随机选择的最佳子集,能够保持较强的稳定性,抗过拟合能力较强,对于噪声和异常值具有较好的 容 错 性。算 法 是 等 人 于 年首先提出的一种二类分类模型,即在特征空间上找到一个超平面,将不同类别的样本最大限度割离,该算法具有较强的泛化能力。算法首先要确定样本的分类特征,再根据贝叶斯定理计算每个类别在样本中的分布频率,从而进行分类,该算法的 前提 是 假 设 样 本数据的特 征 之 间 相 互 独立。算法是通过计算未知样本类别向量到已知样本各类别中心向量的距离,然后根据最小距离对样本分类,该方法只考虑每一类样本的均值,因此计算速度快。建立分类特征集机器学习分类算法是建立在样本数据特征差异的基础
12、之上,所以构建具有差异最大化的多种特征变量是提高分类精度的关键。文中使用合成的 影像波段,结合光谱特征和纹理特征,建立分类特征集。为了实现不透水面的提取,构建种光谱指数,突出不透水面与其他地物的遥感信息差异,实现对植被、水体、裸地等的消除,包括归一化植被指数(,)、改进的归一化水体指数(,)和 归 一 化 建 筑 指 数(,)。计算式为:第期夏军,等:基于 和机器学习的不透水面提取研究 以成渝地区为例 ,(),().()式中:,和分别表示 影像的绿光、红光、近红外和中红外第波段的反射率。建筑物一般具有较强的纹理结构,加入纹理特征将有助于对建筑物的识别。平台利用灰度共生矩阵,实现了多光谱波段的角
13、二阶矩、对比度、熵、反差分矩阵等 种纹理特征指数。通过 代码编辑器调用“”方法,将归一化建筑指数()作为光谱波段计算纹理指数,选择其中常用的种 、和 方法。分别将计算得到的光谱指数和纹理指数作为光谱波段,添加到预处理合成的 影像,从而生成一幅具有 个波段的影像。样本数据选择通过 代码编辑器界面,在线选取分类训练样本。结合谷歌卫星高清影像地图,叠加预处理的研究区 真彩色影像图,选取训练样本。平台提供了点、面两种样本选择方式,由于不透水面包含的地物类型较多、光谱差异性较大,因此采用面的方式采样,以保证样本光谱对真实地物的反映。将研究区地物类别分为不透水面和透水面两种:不透水面主要是一些人工建筑,如
14、房屋、道路、广场、停 车 场 等,主 要 分 布 于 城 镇 建 成 区;透 水面包括植被(林地、草地和耕地等)、水体和裸地等。研究区样本数据的选择见表,样本的选择尽量做到分布均匀、数量不能太少,并且每个类别样本像元尽量纯净。将样本数据随机分组,按照的比例分为训练组和验证组,前者用于训练分类器,后者用于分类精度评价。表选择的样本数据个研究区域采样方式样本总数不透水面透水面样本数像元数样本数像元数成都市 重庆市主城都市区 结果与分析 精度评价利用随机分组的训练样本,采用、和 种算法进行不透水面信息提取,用验证样本进行检验,再采用混淆矩阵法对结果进行精度评价,结果见表,包括算法名称、参数、总体精度
15、和 系数。种分类算法可以在 代码 编 辑 器 中 通 过 、和 方法进行调用,算法参数是经过多次分类试验,在保证较高精度又避免过拟合时的参数值。表种方法的不透水面提取结果比较分类算法参数成都市重庆市主城都市区总体精度 系数总体精度 系数 :,:默认 :,:,:分类总体精度低于 从总体精度和 系数看,成都市和重庆市主城 都 市 区 分 类 方 法 优 劣 排 序 结 果 一 致:。、和 种算法在两个研究区都能达到较高的精度,精度都在 以上,系数大于 。在成都市 总体精度最高达到 ,系数达 。重庆 市 主 城 都 市 区 总 体 精 度 最 高 达 ,系数达 。和 两种算法精度大致相当,在成都市
16、略优于,而在重庆市主城都市区却相反。算法在重庆市主城都市区能够表现较好的效果,而在成都市的总体精度低一些,系数只有 。算法分类总体精度最低,甚至低于,无法完成两个研究区不透水面的提取,其原因在于该算法成立的前测绘工程 第 卷提是样本特征之间相互独立,而光谱波段、光谱指数和纹理指数之间相关性较强,相互独立性较低,因此导致分类精度很低。总的来说,算法对不透水面的提取效果最佳,对于两个研究区总体精度在 以上,系数大于 。无论哪种算法,样本的选择都是关键,正确选择合适的样本,才能保证较高的精度。不透水面提取结果基于 云平台和 影像,采用种分类算法对成都市和重庆市主城都市区不透水面进行提取,由于朴素贝叶斯算法分类精度太低,不予统计,其余种算法的不透水面提取结果统计见表。表不透水面提取结果统计分类方法成都市重庆市主城都市区不透水面面积 不透水面覆盖率不透水面面积 不透水面覆盖率 对于成都市:算法提取到的不透水面面积最小,只 有 ,仅 占 成 都 市 总 面 积 的 ,大概为其他种算法面积的;和 两种算法结果差异很小,不透水面面积分别为 和 ,覆 盖 率 分 别 为 和 ;算法提取到的不透水面面积为