1、 ()年 第 卷 第 期 收稿日期:基金项目:国家自然科学基金项目(,);贵州省科学技术基金计划项目(),();贵州省科技支撑计划项目();贵州大学引进人才科研项目 贵大人基合字()号作者简介:付子骏,男,硕士研究生,主要从事数据挖掘研究,-:;通信作者 吴永明,男,博士,教授,主要从事大数据制造、数据挖掘研究,-:。本文引用格式:付子骏,吴永明,徐计 -模型在二氧化碳浓度预测中的应用 重庆理工大学学报(自然科学),():,-(),():()-模型在二氧化碳浓度预测中的应用付子骏,吴永明,徐计(贵州大学 公共大数据国家重点实验室,贵阳 )(贵州大学 计算机科学与技术学院,贵阳 )摘要:针对传统
2、预测模型无法利用多元数据变量间内在联系的问题,提出了基于张量分解和序列最小二乘规划()优化的长短期记忆神经网络()模型 -。在模型中将数据构建成张量并对其进行分解与优化,使数据能够保留变量间的内在联系,采用 算法进行优化,使 能够有效利用变量间的内在联系,提高模型的预测性能。实验结果表明:提出的 -模型较传统模型具有更高的预测性能。关键词:二氧化碳浓度预测;多元数据变量间内在联系;张量分解;序列最小二乘规划;长短期记忆神经网络中图分类号:文献标识码:文章编号:()引言随着每个国家的经济发展,生态环境保护成为需要被长期关注与讨论的重要议题。中国正处于高速发展的阶段,温室气体排放量在近年来也逐渐增
3、多,目前已经是世界上最大的温室气体排放量的国家之一 。在此背景下为实现可持续发展目标,中国承诺在 年实现碳达峰、年实现碳中和。所以为完成“双碳目标”,准确预测和评估大气中二氧化碳浓度的变化趋势,具有十分重要的意义。传统的二氧化碳浓度预测研究起步于线性统计,通过线性统计的方法衍生出如自回归滑动平均模型(,)及自回归差分移动平均模型(-,),这些方法也是时间序列预测中最基本、最重要的模型 ,有许多研究人员基于这些方法已经取得一定的成就。等 提出了一种新颖的基于灰色多变量模型来预测 年中国通过燃料燃烧而产生的二氧化碳排放量;等 将反向传播算法(-,)和遗传算法(,)结合,提出了 -算法,对中国河北省
4、的二氧化碳排放量进行了预测。此外,也有许多研究者通过机器学习等方法来进行二氧化碳浓度预测,尹航等 使用 -来对新疆羊舍中的二氧化碳浓度进行预测;等 对中国二氧化碳排放趋势进行预测和分析,提出了一种基于新信息优先原则的新型灰色滚动机制;等 通过将能源使用作为输入变量,使用机器学习技术来预测二氧化碳排放和增长。随着深度学习方法的广泛应用,有许多学者也开始采用这类模型来预测空气中的污染物含量。等 提出了一个基于长短期记忆神经网 络(-,)方法的 预测模型;等 将卷积神经 网 络(,)、和稀疏去噪自动编码器(-,)相结合,提出了一种基于深度学习的 -()模型来预测空气中的颗粒物水平;等 提出了一种新颖
5、而简单的基于空间注意的长短期记忆神经网络模型(-,-),它结合了 和空间注意机制,以自适应地利用多个因素的时空信息来预测空气污染物浓度;张春露等 通过基于 的 神经网络较精准地预测了太原空气质量 指数。然而,由于二氧化碳浓度的实际数据具有高复杂性且容易受到外部因素影响等特点,传统预测模型又缺乏对多元变量之间内在联系的处理,导致出现预测精度过低等问题。因此,上述模型在多元时间序列预测任务中的效果有限。针对这个问题,本文提出基于张量分解算法(-,)和序列最小二乘规划(,)优化的 神经网络模型,命名为 -。通过将二氧化碳浓度数据构建成张量并对其进行张量分解与优化,使得在数据处理过程中保留了变量之间的
6、内在联系,使用 进行优化,改善 模型在无法有效使用变量之间的内在联系的缺陷。实验结果表明,本文提出的 -模型在进行二氧化碳浓度预测任务时预测精度有明显提升,证明本文提出的模型能够有效挖掘、利用数据中变量之间的内在联系。模型及相关理论作为多元时间序列数据的一种,二氧化碳浓度数据由多个变量组成,在输入数据时难以处理。之前通常都是将多元数据连接到一个复合向量中。然而,这些基于向量的模型将不同的变量视为独立的特征,忽略了它们之间的内在联系,无法正确捕捉数据趋势 。因此,本文通过对大气中的二氧化碳浓度数据进行重塑来构建张量,以保留数据的多方面和相互关联的性质。张量是多维数组在空间中的数学表示。具体来说,
7、一个 路或 阶张量是 个向量空间的张量积的一个元素,每个向量空间都有自己的坐标系 。例如,一阶张量是向量,二阶张量是矩阵,三阶或更高阶的张量称为高阶张量。为充分保留二氧化碳浓度数据中变量之间多方面和相互关联的内在联系,本文将所输入的二氧化碳浓度数据按照二氧化碳浓度含量、污染物排放量和气温来进行建模。从根源来说,污染物排放量是影响大气中的二氧化碳浓度的最主要因素,因此将污染物排放量作为主要考虑因素之一 。许多研究表明,气温对于大气中的二氧化碳的存留时间起决定性作用 ,气温越高,大气中的二氧化碳的存留时间就越长,浓度就越高。图 展示了 时二氧化碳浓度数据的三阶张量,时间 时的张量数据用 表示,。这
8、个三阶张量既能够降低输入数据时的处理难度,又能够捕捉到各个变量间的相互性,是目前处理多元时间序列数据最高效的方案 。图 由三阶张量表示的 时大气中的二氧化碳浓度数据 张量分解算法本文设计了一个张量分解算法,它使得模型能够从几何结构中捕捉到不同变量之间的内在联系,之后根据这种联系来对数据进行优化以强化付子骏,等:-模型在二氧化碳浓度预测中的应用这种联系。张量分解算法是基于塔克分解实现的,通过使用塔克分解将三阶张量 分解为 。这里,每个因子矩阵(,)描述了二氧化碳浓度数据空间中二氧化碳浓度含量、污染物排放量和气温 个不同方面,核心张量 反映了三者之间的关系强度。因此,可以通过张量分解捕捉张量 中各
9、个方面的内在联系。图 展现了张量分解的过程。图 张量分解过程在对张量进行分解后,所拆分出的因子矩阵中被认为保留了张量内各种变量之间的内在关联。在这样的前提下,通过对 进行优化能够很好地保留这种联系。因此,我们设计了一种优化算法,命名为张量优化策略(-,)。首先,通过解决以下函数来获得优化因子(,):(),()()(),()式中:()()()是归一化约束,用来避免过度拟合并控制分解和重建后的张量接近真实值;用于通过优化因子 调整因子矩阵 以最小化具有较高相关性 ,的数据之间的差异;,是皮尔逊系数,用来表示张量数据中 时刻与 时刻时变量的联系程度,具体计算公式如下:,(?)(?)(?)(?)?()
10、?(),|()式中:为阈值。为解决这一问题,本文通过迭代算法,使用梯度下降算法 来更新优化因子 以取得最优解,每个变量的梯度推导如下:()()()()()()式()()中,关联矩阵 ,(),其 中,是 关 系 矩 阵的 对 角 线 项,(),它捕捉了张量 中各变量之间的关系,本质上是一个三角矩阵。算法 中介绍了张量分解算法的详细过程。算法 张量分解算法输入:张量数据 ,关联矩阵 ,关系矩阵 和误差阈值 。输出:重建的张量?()()()。:通过塔克分解将输入的原始张量 分解为;:计算调整矩阵 ,():计算关系矩阵 ,():设置 为梯度下降的步长;:():计算,:更新 :?()()():对分解的张
11、量进行优化过后,对张量进行重建,图 展现了张量重建的过程。图 张量重建过程 基于 优化的 广泛的实验证明,通过强化多元时间序列数据中各个变量特征之间的内在联系,可以有效提高模型的预测精度 。因此,本文设计了一个基于序列最小二乘规划(-,)算法优化的 模型,命名为 -。序列最小二乘规划 是一种序列二次规划(,)算法,的基本原理是将求约束的多元变量函数的最小值问题转换为多个小的二次规划(,)子问题,在进行一次次的迭代与更新过后,不断强化多元变量之间的内在联系。算法局部收敛速度快,且具有全局收敛性,是强化张量数据中各个变量特征之间的内在联系的最优方法之一 。提出模型的 模块如图 所示。在提出的模块中
12、,通过 对在前一阶段进行张量重建后的数据进行优化,定义时间 时输入数据为,将数据代入到 中,得:,()式中:为输入数据 中各变量的系数;为约束系数。在优化之后,将前一时间 时的隐藏状态 引入到模块,并将优化后的数据输入到 模块,此时时间 的隐藏状态 计算如下:(*)()(*)()?(*)()?()(*)()()()式中:、和 分别表示遗忘门、输入门、记忆单元门和输出门的权重矩阵;、和 表示相应门的输入权重;、和 表示相应门的偏重;?表示候选单元,用于更新初始单元 的状态;表示 激活函数。图 -中的 模块结构由于在 -模块中的所有数据均为张量表示,为了在提议的模块中合并、相乘和求和这些由张量表示
13、的数据,本文根据张量的特性应用了 中的卷积运算 来处理张量。通过卷积运算提供的通过每个数据单元状态在时间上传播互连的独特功能,可以实现张量子空间的局部连接,捕获张量子空间中不同变量之间的联系,使得模型可以更好地处理张量数据。方程中的卷积运算在式()()被定义为“*”,以此可以在模块中处理张量而不是向量。付子骏,等:-模型在二氧化碳浓度预测中的应用 实例验证 数据来源实验分为 个部分,第一部分采用标准时间序列数据集,实验数据来源于意大利市区空气中一氧化碳含量数据集,同时还将该地的气温、污染物排放量作为外生变量,数据采样的时间间隔为 ,如图 所示,数据主要来源于 数据库 ;第二部分采用现实数据集,
14、数据来源于贵阳市 年大气中二氧化碳浓度的采样数据,同时还将该地的气温、污染物排放量作为外生变量,数据采样的时间间隔为 ,如图 所示,数据主要来源于中华人民共和国生态环境部数据中心。在所有实验中,将所有数据均分为 个部分,数据集中 的数据作为训练数据进行模型训练,的数据作为校验数据用于验证模型,的数据作为测试数据用于和预测值进行对比。所有数据集在训练前都需要进行归一化处理,并构建成张量数据。训练后,使用验证集进行校验,挑选性能最好的模型进行测试。图 标准数据集中一氧化碳浓度数据曲线图 现实数据集中二氧化碳浓度数据曲线 参数设置在本次实验中,由于本文提出的模型以及进行对比的模型都是传统 方法及其扩
15、展,因此为有效评估提出模型的性能,对本次实验中所有数据集上的每个方法的所有可调参数进行网格搜索,同时所有参数保持一致。首先,对所有数据集上的所有模型的输入窗口 的大小规定在 ,的范围中,隐藏层单元数量从 ,中选择,设置衰减系数为 .,衰减步长为 。同时,本文选择了 函数作为激活函数,使用 优化器来优化参数,-参数从 ,中选择。最后,定义批量大小为 ,实验时使用了 的初始学习率,选择 用作损失函数。实验结果为验证本文提出的模型预测性能的优越性,通过使用 模型 、模型、-模型、-模型与 -模型进行实验比较,其中 -是移除了张量分解模块的 -模型,-是移除了基于 优化 模块的 -模型。标准数据集上的
16、实验结果个模型在现实数据集上的预测曲线如图 所示。图 各模型在标准数据集上的预测结果曲线如图 所示,红线为本文提出的模型,可以看出,种模型的预测结果差距不大。模型和 模型的预测结果不理想,它们无法有效在细节上分析数据,导致其在预测时无法准确把握数据趋势;本文提出的 -模型对比其他模型的预测结果有明显提升,预测曲线能够较好地展现时间序列的发展方向和趋势,对比移除张量分解模块 的 -和 移 除 基 于 优 化 模块的 -,-模型在预测结果上也具有优势,表明在标准数据集上,本文提出的张量分解模块以及基于 优化 模块能够有效处理标准的时间序列数据。为更直观地展现各个模型的预测结果,本文使用 、四类评价指标。各模型预测的评价结果如表 所示。表 个模型在标注数据集上的预测结果模型名称 -从评价结果来看,模型和 模型在数据集上的评价数据最差,尤其是 、和 的值都较大,说明 模型和 模型预测结果与实际值相差较大,模型预测性能较差,模型预测精度较低;-模型的各项评价数据与 -相比差距较小;-模型的评价数据与前 种模型相比是最好的,尤其是与 模型相比,其各项评价数据值都提升较大,说明本文提出的 -模型的预