1、第 卷,第 期自 然 资 源 遥 感,年 月 ,:引用格式:吕永强,于新伟,杨朔,等 基于多源地理大数据的城市多中心识别方法 自然资源遥感,():(,():)基于多源地理大数据的城市多中心识别方法吕永强,于新伟,杨 朔,郑新奇(山东建筑大学测绘地理信息学院,济南;中国地质大学(北京)信息工程学院,北京)摘要:地理大数据的出现为城市空间结构研究提供了新的数据源,如何利用地理大数据识别城市多中心空间结构是目前学术界研究热点。文章提出了一种基于多源地理大数据的城市多中心识别方法,使用基于分水岭的区域分割算法获取研究区内部空间单元,使用两阶段城市中心识别算法识别了城市的主中心与次中心,并对所提方法的识
2、别结果进行了对比验证,研究结果表明:基于分水岭的区域分割算法可以有效地挖掘夜间灯光数据的空间特征,获取的基础空间单元可适用于识别城市空间结构;微博签到数据可以较好地反映城市人类活动,基于微博签到数据与两阶段城市中心识别方法获取的城市中心与城市规划设定的城市中心基本吻合。文章提出的应用地理大数据识别城市多中心的方法,对拓展地理大数据的应用领域、丰富现有城市空间结构研究的方法具有重要意义。关键词:夜间灯光;微博签到;分水岭算法;空间单元;多中心结构中图法分类号:;文献标志码:文章编号:()收稿日期:;修订日期:基金项目:山东省自然科学基金青年项目“基于多源数据的中国城市多中心空间结构时空演化特征及
3、其影响因素研究”(编号:)资助。第一作者:吕永强(),男,博士,讲师。研究方向为 空间分析与建模。:。通信作者:郑新奇(),男,博士,教授。研究方向为地理信息科学与技术、复杂系统仿真建模与决策支持。:。引言自改革开放以来,中国正经历着史无前例的快速城市化过程,城市化率由 年的 增长到 年的 ,与此同时,快速城市化过程也带来诸如交通拥堵、环境恶化、住房紧缺等城市问题。为实现城市的健康可持续发展,中国主要城市相继出台相应规划政策以发展多中心城市空间结构,但中国城市多中心空间结构的发展情况仍缺乏全面系统的研究。因此,准确地识别城市多中心既是目前城市问题研究的重要内容,也在规划评估等方面具有重要的现实
4、意义。城市多中心识别受数据可得性的限制较为严重,现有识别方法也多基于就业、人口等统计数据,但统计数据周期较长、获取难度较大,使得大空间范围、长时间序列城市多中心识别研究受到限制;现有中国城市多中心识别研究的空间单元以街道(乡镇)行政区划为主,街道(乡镇)行政区划面积及空间分异较大,不仅会影响人口 就业密度的计算,同时街道(乡镇)行政区划内部细节特征被忽略,这很大程度限制了统计数据在城市多中心识别研究中的应用。随着大数据时代的到来,手机信令、社交媒体签到、兴趣点(,)等地理大数据以其能反映人类活动的特征,为城市多中心识别研究提供了新的数据选择,。与传统的统计数据相比,地理大数据具有精度高、覆盖面
5、广、更新快、数据量大等优点,能够弥补传统数据周期长且难以获取等缺点,但其空间分布不稳定且具有严重的空间变异性。与基于传统统计数据的城市多中心识别研究相比,基于地理大数据的城市多中心识别研究案例相对较少,研究中使用的方法多为阈值法或空间统计法,且相关研究中空间单元多为规则格网,。因此,如何为地理空间大数据提供稳定的空间单元是城市多中心识别研究的重要议题。夜间灯光数据在社会经济指标估算和城市化等研究中取得了广泛应用。受道路、机场、港口、工业园等内部灯光的影响,数据不能准确表征城市内部经济指标与人类活动,但数据较高的空间稳定性使其在描述城市景观格局与基础设施分布方面表现出更大的潜力。部分学者使用 夜
6、间灯光数据对城市内部区域进行区块分割,进而用于城市多中心识别研究。第 期吕永强,等:基于多源地理大数据的城市多中心识别方法等使用多主体的面向对象分割算法框架对夜间灯光数据进行分割;等使用 软件中的多尺度分割算法对夜间灯光数据进行分割。然而,现有 种算法较为复杂,且算法中参数的设定对 种区域分割算法结果影响较大,这些特点使得面向对象分割算法框架的应用受到限制。本文提出了一种新的基于夜间灯光数据与地理大数据的城市多中心识别方法框架,首先使用分水岭分割算法对 夜间灯光数据进行区域分割,获取城市多中心识别研究的基本空间单元;其次使用微博签到数据表征城市内部人类活动,使用两阶段方法识别城市中心进而分析城
7、市空间结构特征;最后以北京、上海、重庆为例,验证本文提出的城市中心识别框架的可靠性。本研究拓展了基于地理空间大数据的城市空间结构研究思路与方法,对中国城市多中心空间结构发展分析和规划评估等具有较强参考价值。研究区概况与数据源 研究区概况本文选取 年北京、上海、重庆 个特大城市的市辖区作为研究区,研究区范围如图 所示。为保证研究区的连续性,上海市崇明区,重庆市万州区、黔江区不作为本文的研究区,年 月北京市密云县和延庆县撤县设区,故本研究不将其纳入研究范围。北京、上海作为中国最著名的 个超大型城市,其城市空间结构实证研究案例较多,可与本文研究成果进行对比分析;个城市在地理区位与地形条件方面存在差异
8、,可用于验证本文研究方法的可靠性。()北京市()上海市()重庆市图 研究区示意图 数据源及其预处理)夜间灯光数据。夜间灯光数据来源于美国国家海洋和大气管理局(:),本文使用排除了散射光影响的“”格式月合成 数据(年 月),此数据为地理栅格数据,空间分辨率为,单位为。使用 软件对数据进行坐标转换与重采样,将其坐标系转换为 ,空间分辨率为 ,并使用研究区矢量面数据进行裁剪,获取覆盖研究区的栅格数据。)新浪微博签到数据。研究表明,与手机信令数据和 数据相比,社交媒体签到数据更适用于城市空间结构的相关研究,。本文使用新浪微博签到数据来源于(:),数据获取时间为 年 月,全国总签到次数 亿次,数据量大,
9、覆盖时空范围广,保证微博数据的时空稳定性。选取北京、上海、重庆 市签到数据,利用每个签到点显示的经纬度坐标将其转化为矢量点。研究方法 基于分水岭的区域分割算法城市内部空间单元的缺失使得基于人类活动点数据的城市多中心识别研究受到限制,为实现基于地理大数据的城市多中心识别,必须获取城市内部稳定的空间单元。与 夜间灯光数据相比,夜间灯光数据不受灯光饱和效应的影响,能够很好地区分城市内部精细尺度上的空间差异。如图 所示,夜间灯光数据在区域尺度上显示出基本的空间分布特征,灯光强度较大的区域形成了类似地形中的“山峰”,而“山峰”之间的灯光强度低值形成了类似于地形中的自 然 资 源 遥 感 年“山谷”。每个
10、“山峰”的顶点可认为是灯光强度的热点,热点在城市区域中表现出较大的空间差异,热点区根据灯光强度最大值点及影响范围可对城市区域范围进行像元尺度分割。因此,基于灯光影像的区域分割过程转换为求灯光热点及其影响范围的过程。()灯光强度三维示意图()分水岭算法划分的空间单元图 基于分水岭的区域分割算法示意图 本文使用基于分水岭的区域分割算法对 灯光影像进行分割,分水岭算法是一种基于拓扑的形态分割算法,算法将图像视为拓扑地貌,获取局部极小值及其影响区域(集水盆)的分界线。利用 软件中内置的分水岭算法对图像进行处理,在算法过程中,将灯光强度视为海拔高度,为使输入的影像符合分水岭算法的要求,需对灯光影像进行变
11、换。公式为:,(),()式中:()为输入的栅格数据数组的最大值;,与,为数组第 行第 列的原始值与变化后的值。分割算法结束后,将面积较小的空间单元()按照公共边最大原则合并到相邻的空间单元中。两阶段城市多中心识别识别城市多中心是城市空间结构研究的重要环节。城市中心一般包含 方面特征:中心内部要素(就业和人口等活动)密度显著高于周边区域;城市中心范围内要素总量足够大使其对周边区域具有一定影响。常用的识别方法主要包含阈值法、空间聚类模型、参数模型、非参数模型法,其中,阈值法最为简便,但阈值的设定依赖于研究者对研究区的先验知识,;空间聚类模型、参数模型与非参数模型不依赖先验知识,但空间聚类模型多用于
12、格网数据,难以识别郊区的中心;参数模型假设城市以主中心为原点对称分布,与真实的城市发展不符;非参数模型可以更好地拟合城市密度曲面,识别出中心城区及郊区的次中心,但方法操作较为复杂。本文参考的研究,对原始的非参数模型方法进行改进,采用两阶段方法识别城市中心。第一阶段,在计算每个空间单元微博签到密度的基础上,将点密度的平方根表示为其与空间单元中心坐标的关系,即 (,),采用自动平滑系数的局部加权回归方法(,)拟合微博签到点密度曲面。局部回归中以每个街道中心点为中心确定邻域范围,函数根据修正的偏差赤池信息量准则(,)自动确定邻域大小,邻域范围内所有观测值点权重 计算方式为:|,()式中:为邻域范围内
13、各点到点 的距离;为邻域范围内各点到点 的距离的最大值。局部加权回归通过逐点拟合的方式得到回归曲面,选取拟合曲面上空间单元的正残差显著性水平在 以上的空间单元,并将其中具有公共边的空间单元进行合并,将其视为候选次中心。第二阶段,对不同城市而言,城市中心的微博点密度阈值各不相同,本文采用相对阈值分割的方式对候选中心进行筛选,以每个城市总签到数据的 作为标准,删除内部签到点总量较小的候选中心。的计算公式为:,()式中 为城市内微博签到点的总数量。识别的城市中心中,将微博签到点数量最大的中心视为主中心,其他的为次中心。第 期吕永强,等:基于多源地理大数据的城市多中心识别方法 结果与分析 区域分割算法
14、结果使用基于分水岭的区域分割算法对北京、上海、重庆城市范围内 夜间灯光数据进行区域分割,并将分割后的子区域转为矢量面数据,结合微博签到点数据,采用叠置分析的方式计算每个空间单元内部的微博签到点密度,基于分水岭算法的分割结果如图 所示。城市空间单元统计结果如表 所示。()北京市()上海市()重庆市图 基于分水岭的区域分割算法结果 表 城市空间单元统计 指标统计值北京市上海市重庆市研究区面积 总和 数量 个总和 空间单元面积最大值 平均值 标准差 微博签到点数量 个总和 平均值 微博签到点密度(个)最大值 平均值 北京、上海、重庆分别有 个、个、个空间单元,空间单元平均面积分别为 ,空间单元数量与
15、研究区面积呈现正相关关系,且郊区空间单元一般大于城市中心空间单元。对比 个城市空间单元来看,重庆市空间单元面积的平均值、最大值及标准差最大,北京市次之,上海市最小。上海市地处长三角平原,经济发展水平最高,因此其内部空间单元面积差异最小;重庆市地形以山地丘陵为主,灯光分布较为分散,部分山地地区灯光基本为,因此郊区空间单元面积最大值为 ,远大于中心城区,各个空间单元面积差异最大;北京市介乎两者之间,空间单元平均大小与差异位于中间。从 个城市各空间单元微博签到点数量及密度来看,上海市微博签到点数量最大,平均密度最大,北京次之,重庆最低,从点密度的空间分布来看,个城市显示出不同的内部空间结构特征。城市
16、多中心识别结果使用两阶段的城市多中心识别算法,基于空间单元微博签到点密度数据识别 个城市的多中心,识别结果如图 和表 所示。北京、上海、重庆表现出多中心的城市空间结构,其内部的中心数量分别为,。其中,北京市 个城市中心微博签到点数量约占全市的 ,主中心面积为 ,其内部微博签到点数量为 ,占全部中心内签到点数量的 ;上海市 个城市中心微博签到点数量约占全市的 ,主中心面积为,其内部微博签到点数量占全部中心签到点数量的 ;重庆市 个城市中心微博签到点数量约占全市的 ,主中心面积为 ,其内部微博签到点占全部中心签到点数量的 。从 个城市中心的空间分布情况来看,北京市的次中心主要集中在近郊区,部分远郊区的新城新区中自 然 资 源 遥 感 年心也可识别为次中心;上海市的次中心空间分布上距离城市主中心较远;重庆市受内部山地地形的影响,次中心分布更为分散。从 个城市内部签到点数量来看,城市内部的活动主要集聚在城市中心,其中主中心集聚了绝大部分的人类活动,在城市空间结构中发挥着重要作用;城市内部存在着相当数量的次中心,但次中心内人类活动相对于主中心较少,次中心的发育程度较弱,城市仍表现为强主中心的多中