1、陈琦,苏国辉,魏合龙,等.江苏盐城滨海湿地净生态系统碳交换量模拟参数选择J.海洋地质前沿,2023,39(2):56-65.CHEN Qi,SU Guohui,WEI Helong,et al.Selection of parameters for simulation of net ecosystem carbon flux in Yancheng coastal wetland,JiangsuJ.Marine Geology Frontiers,2023,39(2):56-65.江苏盐城滨海湿地净生态系统碳交换量模拟参数选择陈琦1,2,苏国辉3*,魏合龙3,叶思源3,谢柳娟3,丁喜桂3(1
2、 中国地质科学院 北京 100037;2 中国地质大学(北京),北京 100083;3 中国地质调查局青岛海洋地质研究所,青岛 266237)摘要:滨海湿地净生态系统碳交换量受到多种环境因素的影响,在进行滨海湿地净碳交换量估算建模时,参数的选择至关重要,如何合理地选择输入参数不仅对于估算结果的精度有影响,同时也会影响预测模型的适用性。本研究使用了 Pearson、Spearman、距离相关系数、最大互信息相关系数 4 种相关系数来计算各个环境因素与净碳交换量之间的相关性,基于相关系数来选择最佳的输入参数组合。利用实际测得的江苏盐城盐沼湿地数据,依次选择各个相关性中最高的 8 个参数组合,基于卷
3、积神经网络对江苏盐城滨海湿地 NEE 进行建模,得到了4 个预测模型,并使用均方根误差和平均绝对值误差来进行模型精度的验证。研究表明,使用基于最大互信息系数得到的参数组合进行滨海湿地 NEE 建模时模型的精度最好,误差最小;净光合有效辐射,净辐射,地表辐射与 NEE 在 4 个相关系数中都属于强相关,表明这一类辐射类参数对滨海湿地 NEE 的影响要大于其他参数;各参数与 NEE 之间的关系既包含线性关系也包含非线性关系,传统的单一线性分析手段无法完整准确地反应各个环境参数与 NEE之间的响应关系;基于卷积神经网络的滨海湿地 NEE 预测模型在精度上要优于其它同类型模型,这表明使用该模型在进行
4、NEE 预测建模时具有很好的适用性。关键词:卷积神经网络;相关系数;滨海盐沼湿地;净生态系统碳交换量中图分类号:P628.4文献标识码:ADOI:10.16028/j.1009-2722.2022.247 0 引言自人类进入工业世纪以来,以二氧化碳为主的温室气体含量在大气中不断地增加,由此导致的全球气候变暖已经对生态系统产生了重要影响。在此背景下,世界各国正加紧出台一系列政策控制碳排放,中国提出在 2030 年实现碳达峰,2060 年实现碳中和。为了实现这一目标,既需要减少煤炭化石能源的消费,加大清洁能源的投入,也需要提升生态系统的碳汇能力,发挥生态系统的固碳作用。滨海湿地作为海洋生态系统的重
5、要组成部分,具有巨大的碳吸收能力。据统计,滨海湿地每平方千米的年碳埋藏量预计可达 0.22Gg C,相当于 3.36105 L汽油燃烧所排放的二氧化碳量1,尽管滨海湿地的面积仅占全球海洋面积的约 0.2%,但湿地生态系统储存的碳却占海洋总碳量的 50%2,因此,量化滨海湿地的固碳能力对发挥滨海湿地的碳吸收作用至关重要。1 净生态系统碳交换量净生态系统碳交换量(Net Ecosystem CarbonExchange,NEE)是目前量化生态系统固碳能力的一 收稿日期:2022-09-05资助项目:国家重点研发计划“场景驱动的海洋科学大数据挖掘分析关键技术与应用”(2021YFF0704000);
6、青岛海洋科学与技术试点国家实验室 山 东 省 专 项 经 费(2022QNLM05032-4);中 国 地 质 调 查 局 项 目(DD20221711)作者简介:陈琦(1998),男,硕士,主要从事地球信息科学技术方面的研究工作.E-mail:*通讯作者:苏国辉(1977),女,硕士,正高级工程师,主要从事海洋地质信息化技术及应用研究.E-mail: ISSN 1009-2722海洋地质前沿第 39 卷第 2 期CN37-1475/PMarine Geology FrontiersVol 39 No 2个重要指标,反应生态系统中总呼吸作用和总生态系统生产力之间的动态平衡,当 NEE 为正值时
7、反应该生态系统为净二氧化碳释放,为碳源,当 NEE为负值时反应该生态系统为净二氧化碳吸收,为碳汇3。目前,对生态系统进行 NEE 建模的方法可以分为 2 类。基于过程的生物模型,这类模型的代表是DGVM 模型4、IFUSE 模型5、ECOSYS 模型6等,着重于刻画碳通量复杂的时空变化机制,以生物圈的能量理论和假设为基础,使用数学关系来表达大气和地表之间的生物和物理过程7-8,这类模型的解释性很强,但往往过于复杂,难以应对大范围多尺度的情况;基于数据驱动的模型,代表是随机森林(RF)、支持向量机(SVM)、人工神经网络(ANN),可以从大量的数据中挖掘有效信息,不需要基于太多的假设,可以很好地
8、刻画碳循环过程中的非线性关系,适用于多尺度大范围研究,近年来已经被成功用于解决生态系统和生理过程预测和建模问题9,在陆地上的如森林、稻田等生态系统的 NEE 预测建模中也得到了应用10-11,滨海湿地NEE 建模方面相关研究仍较少。此外,由于 NEE反应的是生态系统中碳总吸收和总排放之间的一种平衡,受到多种因素的影响,如光照辐射、气候条件、土壤环境等12,但是在实际建模中无法将所有的参数都纳入模型中,因此,如何合理地选择最佳的参数组合对于模型的建立至关重要。在本次滨海湿地 NEE 建模研究中使用了 4 种相关系数方法来计算环境变量与 NEE 之间的相关性,选择每种相关系数中最高的 8 个参数作
9、为输入参数组合,使用卷积神经网络来进行预测模型的构建,将计算得到的 4 种参数组合输入到 NEE 预测卷积神经网络中进行训练,得到 4 种模型,通过比较预测值和实测值之间的误差,选择出最佳的参数组合,为未来的滨海湿地 NEE 建模研究提供基础。2 研究地区与数据来源本次研究区为江苏盐城滨海湿地(32323425N,1195512150E),位于江苏省沿海中部,苏北江淮平原东部,距盐城市中心约 50 km,湿地总面积近 24.30104 hm2。地处暖温带季风和亚热带季风的过渡地带,四季分明,雨热同期,年平均气温1316,受台风和梅雨季节的影响显著。湿地内植被种类多样,主要的植被类型包括互花米草
10、、芦苇、翅碱蓬和茅草,其中碱蓬盐沼湿地面积 23.8km2、芦苇盐沼湿地面积 192.0 km2、米草盐沼湿地面积为 203.3 km2。本研究数据通过涡度塔实地测得,数据观测时间为 2019 年 4 月 1 日至 2019 年 10 月 31 日,记录间隔为 0.5 h,共测得 5 397 条数据,观测指标共有15 个(表 1)。表 1观测参数符号及名称Table 1 Symbols and names of the variables 符号参数名称符号参数名称RG地表辐射WDir风向PPDF光合有效辐射APre气压RN净辐射Rain降雨量ATemp气温WSpee风速RH相对湿度Vapor蒸
11、汽压TS土壤温度SWC土壤含水量Temp地表温度ALB土壤反照率NEE净生态系统碳交换量 3 基于数据驱动的 NEE 预测模型在过去的几十年间,研究人员使用了多种方法来进行碳交换量的模拟估算,根据原理跟技术不同可以分为基于过程的模型和基于数据驱动的模型13。基于过程的模型应用的时间最长,模型的理论基础也较完备,其特点在于使用数学关系来描述碳交换量时空变化的复杂物理过程,并且简化了选定过程和生态系统组成部分之间的关系14,解释性比较强。然而,近年也逐渐发现这种模型在具体应用上存在较大的不确定性15-16,且参数的确定过于复杂,模型之间结构差异明显,很难应用到不同尺度上。基于数据驱动的模型近年得到
12、了较多的关注,很大程度得益于该模型可以从大量数据中提取到有用信息,不需要太多先验知识与假设,同时随着以深度学习为首的数据挖掘技术的蓬勃发展,这类模型在精度和应用范围上都逐渐超过基于过程的模型,在生态系统研究和建模中也得到了大量的应用17-19。在本次研究中,从实际应用出发,选择基于过滤器的方法来进行参数的选取,主要是因为这类方法的计算方法成熟,独立于具体模型的特性也使得第 39 卷 第 2 期陈琦,等:江苏盐城滨海湿地净生态系统碳交换量模拟参数选择57这种方法可以在各个不同模型中通用,有利于后期进行比较分析。基于过滤器的方法包括部分互信息方法20、条件互信息方法21、相关系数方法22、Gamm
13、a 测试集方法23等。本次研究中使用的是基于相关系数的方法,在 NEE 与其它环境变量的响应机制研究中,相关系数分析是常用的方法之一,然而目前使用的相关系数方法大多数是线性的相关系数法,如 Pearson 相关系数、Spearman 相关系数等24-25,但是对于自然机制来说各个能量通量之间的响应机制不是简单的线性关系,这是由其自身的复杂性和不均匀性决定的,因此,使用这类系数可以对自然机制中的线性关系进行描述,却无法对于其中的非线性关系做出解释。为了解决这一问题,在本次研究中除了使用经典的线性相关系数外,还引入了距离相关系数和最大信息系数,来探究NEE 与其他环境变量之间非线性关系。3.1数据
14、的预处理与分析本次数据的预处理主要包括缺省值的去除与标准化处理。由于观测或者其他客观条件的影响,实测数据中存在部分观测参数没有观测值或者观测值异常的情况,为了避免这些数据对后续处理的影响,先对存在缺省值的数据进行了剔除处理,得到了 1 443 条数据。此外由于各个参数之间的计量单位不同,为了将其纳入到同一个模型中,需要先对数据进行标准化处理。本次使用最小-最大标准化方法,即离散标准化,通过线性变化将数据值映射到 0,1,同时不会对数据原始特征造成影响,转换方法如式(1)所示。x=xmin(x)max(x)min(x)(1):式中 x*为转换后数据;x 为原始数据。3.2相关系数的计算与输入参数
15、的选取相关系数是反映 2 个变量之间相关关系密切程度的统计指标,被广泛应用于数据驱动模型的参数选择中,该方法最早由统计学家卡尔皮尔逊提出,经过多年发展相关系数已经出现了多种类型,根据应用方向的不同,相关系数可以简单地分为线性相关系数和非线性相关系数,线性相关系数侧重于描述和计算参数之间的线性关系,主要代表有 Pear-son 相关系数,Spearman 相关系数等;而非线性相关系数着重于描述参数之间的非线性关系,包括距离相关系数和最大信息系数等,前者的出现时间较早,在数学建模分析中应用的也比较多,然而随着近些年人们研究的不断深入,这类相关系数的局限性正在逐渐显露,非线性相关系数得到了越来越多的
16、关注。在本次研究中为了找出最佳的参数组合,同时更全面地分析各个参数与 NEE 之间的相关关系,选择了 4 种相关系数来进行计算,即 Pearson、Spear-man、距离相关系数和最大信息系数,通过对计算结果进行排序的方法,来选择出相关性最强的 8 个参数作为输入变量来进行模型的训练,3.2.1 Pearson 相关系数的计算Pearson 相关系数是经典的相关系数计算方法,该方法由英国统计学家皮尔逊提出,主要用于计算2 组连续变量之间的线性关联程度,该系数定义为2 个变量之间协方差和标准差之间的商,系数的正负号表示正相关还是负相关,结果趋于 1,1 之间,系数的绝对值越接近 1,表明变量之间的线性关系越强。计算如式 2 所示:Rp=nxiyixiyinxi2(xi)2ny2(yi)2(2)Rp式中:为 Pearson 相关系数;n为样本数;xi为预测值;yi为实测值。为了更直观的比较对于得到的值进行了求取绝对值处理,最终计算结果如表 2 所示。表 2Pearson 相关系数计算结果Table2Pearsoncorrelationcoefficientcalculationresul