1、社会统计数据均匀指数分析 影响经济社会统计数据空间真实性的要素包括算法、区域内部差异、统计单元规模大小、统计指标的空间展布规律、统计指标的空间规模、统计指标的时间存在特征、统计指标在经济社会构成中的重要程度等多个方面。经济社会统计数据表达对象的各种特征对于数据表达的区域内部真实性有一定的影响。显然地,以省级行政区域为统计单元,我国东部省区和西部省区区域内部差异程度有很大不同,在软件工具的支持下计算现有以行政单元为对象的统计数据所表现的区域平均状况,为相应的应用提供数据空间均匀程度支持。 1经济社会统计数据的空间化 以空间分析为手段,将总量数据离散到空间区域上已有很多应用1-3,以行政区域为单元
2、的统计数据分散到更接近真实情况的自然或经济区域上的做法也有一些尝试4,特别是对于区域面积很大,且内部特征差异十清楚显的区域做这样的工作更有实际意义。将社会经济信息进行空间化处理是根据经济对象空间分布特征、影响经济对象分布的自然和社会经济要素分布,将一定空间单元上的对应信息转化成1km1km栅格数据(或其他空间大小的单元,如500m500m等),每个栅格上的值那么表示在1km2内的平均状况。 1.1经济社会统计数据空间离散化通用方法 经济社会统计数据对应的社会经济指标在空间的分布和变化受多种因素的影响,这些因素就是该经济社会统计指标的影响因素,区域经济社会统计数据在空间上分布的计算(离散化),必
3、须考虑该指标影响因素的空间分布情况,及其对该指标的空间作用方式,才能将该经济社会指标总量数据“分配到区域内不同的空间上5。经济社会统计空间离散化处理的根本方法是,对于某个经济社会统计指标,首先计算其每一种影响因子对该经济社会指标的影响数值,该计算需要依赖地理信息系统软件工具实现,以arcgis软件为例,其计算方法是利用grid下的zonalstats函数进行sum统计,对于增长百分比性质的参数计算,采用平均值统计方法,公式(1)有:tempinfo1=zonalstats(admgrd,elegrd)。其中:admgrd为zonalgrid;elegrd为影响要素。公式(2)有:tempinf
4、o2=zonalstats(admgrd,statgrd)。其中:admgrd为zonal-grid;statgrd为被统计对象。这样可以逐个计算得到影响要素在每个行政单元内的总分值、社会经济要素的总量。将tempinfo1,tempinfo2合并到一起,并用经济要素总量除以总分值,即可得到每个分值所代表的经济总量,并将该值添加到tempinfo1的一个属性项score中;将tempin-fo1与行政区划adm属性表连接,将score项转换成grid数据,结果为scoregrd;用scoregrd乘以要处理的社会经济要素数据statgrd,即可得到处理离散过社会经济指标数据statgrd。实际
5、计算中没有必要就每一种区域自然及社会经济条件对社会经济要素空间展布的影响分析,可以建立一种模型对某一种社会经济要素的所有影响因子及根底条件进行统计计算其影响力,模型为公式(3):agrd=vieigrd。其中:vi为第i种影响因子的权重值,其所有值的和为1;eigrd为第i种影响因子对该社会经济要素的影响分值grid。 1.2人口数据空间离散化 我国人口的空间分布是假设干年来经济社会与自然相互作用的结果,其根本格局是西疏东密,但东南部地区密中有疏,西北部地区疏中有密6。根据全国人口统计实际状况,人口空间分布数据的计算以县级行政单元人口数据为根底,考虑人口空间分布的各种影响因素,特别是与产业结构
6、的空间分布有很大关联度7。在人口离散化计算中,首先计算城镇人口空间分布,然后计算农村人口空间分布,两之合即总人口的空间分布。 1.2.1城镇人口的空间离散模型。虽然在城镇内部人口的分布存在一定差异,全国范围内城镇分布在空间上有很大的差异8,但在全国尺度上,城镇人口在城镇斑块上的分布可以视作是均匀的,因此城镇人口的空间离散化可以将城镇人口按照城镇斑块面积平摊,在全国尺度上具有一定可信任性。全国城镇人口的离散化处理是以每个县级行政区为单元计算的,然后进行汇总,形成全国的城镇人口分布数据,对于任意一县级行政单元来说,该县级行政单元城镇用地地块中的任意栅格i,其上分布的人口(即城镇人口,以2022年为
7、例)可以表示ctpop_2022i=ctpop_2022sini=1si。(4)式中:ctpop_2022i是2022年该县级行政单元城镇用地地块栅格i上的人口;ctpop_2022i为该县的城镇人口总量;si为栅格i的面积,该县级行政单元共有n个城镇用地地块栅格;ni=1si即为该县城镇用地面积。 1.2.2农村人口的空间离散模型。由于自然及社会经济条件的差异,在全国尺度上,农村人口空间分布具有极大的不均匀性;农村人口的分布依赖于土地利用类型、居民点分布、距交通线远近、自然资源的分布情况等多种自然地理要素和人文地理要素的空间分布;为此,在县级行政单元尺度上,为实现尽可能接近农村人口分布的实际
8、需要,采用加权多因子影响力距离衰减模型。加权多因子影响力距离衰减模型中,首先单独考虑模拟各种影响因子对人口的影响,而后对各种因子影响力的相对大小进行模拟,并以线性叠加的方式将各种影响因子的影响力综合起来。由于数据的限制,这里主要考虑了城镇居民点和农村居民点中心的吸引作用、农村居民点斑块的限制作用,土地利用/覆盖类型的影响作用。对于任意一县级行政单元来说,该县级行政单元农村用地地块中的任意栅格i(以2022年为例),加权多因子综合影响力可以表示为w_2022i=mj=1ni=1k_2022jdij。(5)式中:w_2022i为2022年栅格i上加权多因子综合影响力;i为栅格序号,该县级行政单元内
9、共有n个农村用地地块栅格;j为因子编号,该模型中共考虑m个因子;k_2022j为第j个因子在整个模型影响力的权重值;dij为j因子在栅格i上的影响力。在得到各栅格点的影响力的总和值w_2022i之后,可以将w_2022i视作面积调整系数,与城镇人口空间离散模型相仿,可建立下面的数学模型进行农村人口的空间离散。得:copop_2022i=copop_2022w_2022isini=1w_2022isi。(6)式中:copop_2022i是2022年某县级行政单元农村用地地块栅格i上的人口;copop_2022是该县级行政单元的农村人口总量;si为栅格面积,w_2022i为2022年的加权多因子综
10、合影响力,也即栅格i上的人口(农村人口)调整系数。 1.2.3总人口的空间分布模型。将城镇人口空间分布数据和农村人口空间分布数据进行叠加,即可形成表征总人口空间分布数据。数学模型表示为tpop_2022i=ctpop_2022i+copop_2022i。(7)式(7)中:tpop_2022i为任意栅格i处的人口;ctpop_2022i为栅格i处的城镇人口;copop_2022i为栅格i处的农村人口数;i为栅格序号。 2经济社会统计数据空间均匀度计算 行政区域有假设干级别,考虑到在诸多研究中大量使用以省级行政单元为对象的经济社会统计数据,为便于研究,这里以省级行政区域单元为对象计算区域gdp、人
11、口、产业增加值等空间均衡性,各指标值的空间均衡性以均匀指数表达。表达均匀程度有很多种方法,这里用自相关指数(arcgis中的moran指数)来表示。moran指数是一种空间自相关描述方式,可以用于描述地理实体在空间的分布关系,可以用于发现和解释物体在空间分布的原因,在模拟空间现象时可以确定空间临近程度,该指数的使用有助于提高传统统计方法分析能力。moran指数的计算为公式(8)c=wijcij/(wij)(zi-zm)2/n。其中:c表示moran指数;wij=4n;n表示grid中格网的总数,nrowncols;i,j指任意两个相临的格网;zi格网i的属性值;cij是格网i,j属性的相似性(zi-zm)(zj-zm);wij是格网i,j位置的相似性,如果格网i,j直接相临(4个方向上),那么wij=1,否那么wij=0。该模型算法中采样变量2采用(zi-zm)2/n公式计算,其中zm是grid数据的格网平均值,其计算是根据空间位置及属性的相似性进行的。对于计算结果,有3种值可能出现:c0,表示空间上属性相似,具有一定的区域性,属性值在空间具有一定的平滑性;c=0,表示空间上相对独立,空间上没有关联性,根本上是随机出现;c 第6页 共6页