基于MLP和SARIMA的青岛市AQI预报模型

资源描述

1、SCI-TECH INNOVATION&PRODUCTIVITYNo.1 Jan.2023，Total No.348基于 MLP和 SARIMA 的青岛市 AQI 预报模型收稿日期：20220416；修回日期：20220621作者简介：马风滨（2000），男，山东滨州人，在读本科，主要从事自动化研究，E-mail：fengbin_。马风滨摘要：为掌握青岛市空气质量变化特征，为空气质量管控提供参考，以 20142021 年青岛市空气质量指数月统计历史数据为基础，通过深度学习算法中的多层神经网络建立了 AQI 与 PM2.5等 6 个主要污染物的预报模型，对青岛市空气质量的影响因素进行研究，并基于

2、 SARIMA 模型预测了各污染物的浓度值，结合污染物浓度预测值和预报模型对 AQI 值进行了预测。根据预测结果，给出了改善青岛市空气质量的建议。关键词：空气质量预报；空气质量指数；污染物；时间序列；多层感知机；SARIMA 模型中图分类号：X51；TP183文献标志码：ADOI：10.3969/j.issn.1674-9146.2023.01.062（山东科技大学，山东青岛266590）文章编号：1674-9146（2023）0106206随着中国经济的快速发展和城镇化步伐的加快，环境问题日益突出，空气质量问题成为人们关注的焦点。青岛是我国知名旅游城市，空气质量管理是青岛环境保护的重要一环1

3、。基于此背景，本文探讨了青岛市空气质量指数（Air Quality Index，AQI）与各污染物的变化规律，并对青岛市 AQI 进行了预测。AQI 是描述城市环境空气质量综合状况的无量纲指数2，根据环境空气质量评价技术规范（试行），它综合考虑了 SO2、NO2、PM10、PM2.5、CO、O3等污染物的危害程度，AQI 值越小，表明空气污染程度越小3。建立一个可靠的模型来预测 AQI 的变化趋势，对防止环境污染和改善空气质量具有重要意义。焦东方和孙志华4基于多元回归分析模型，对青岛市空气质量进行了分析和预测。Gogikar 等5基于多元线性回归估算方法建立了印度阿格拉市和鲁吉拉市的 PM2

4、.5预测模型，指出两市的工业发展方向。温情等6基于长短期记忆网络实现了对郑州市 PM2.5的长期预测。本文基于深度学习网络中的多层感知机（Multilayer Perceptron，MLP）建立青岛市 AQI 预报模型，通过均方根误差、标准化平均误差、Pearson相关系数等进行模型检验，建立准确可靠的 AQI 预报模型，为更好地实现青岛市空气质量管控提供参考。1数据来源与处理1.1数据来源本文中的空气质量数据参考了中国空气质量在线监测分析平台（https:/ 20142021 年青岛市空气质量月统计历史数据，包括 6 种主要污染物的浓度值及 AQI 值，其中

5、PM2.5、PM10、SO2、NO2、O3的单位为 ug/m3，CO的单位为 mg/m3。青岛市 2014 年 1 月2021 年 12 月AQI 变化趋势存在明显的季节性差异，见图 1。图 120142021 年青岛市 AQI 趋势图1.2数据处理1.2.1数据标准化在利用深度学习算法训练神经网络的过程中，因为原始数据非常容易受到异常点的影响，如果数据集中的最大值和最小值差距较大，对输出结果将产生很大影响，此时数据整体鲁棒性比较差，只适合数据量比较小和比较精确的情况。鉴于此种情况，通常需要对原始数据集进行标准化处理，以防止某些数据对结果影响过大。通过标准化处理，可以得到服从标准正态分布的数据

6、，其均值为 0，标准差为 1，这时数据集中所有数据变化范围相同。数据标准化的应用场景之一是当数据各个特征的取1401201008060402014 2015 2016 2017 2018 2019 2020 2021 2022年份AQI可持续发展Sustainable Development-062-2023 年 1 月总第 348 期值范围差别较大时，或各特征单位具有较大差异时，需要使用标准化方法对数据进行预处理。本文采用的标准化方法是 Z-score 方法，该方法根据原始数据的均值（Mean）和标准差（StandardDeviation）对数据进行标准化，计算公式为x=x（1）式中：

7、x 为原始数据集中的数据；为原始数据的均值；为原始数据的标准差。在本文的原始数据集中，AQI 值和各污染物浓度值均有明显异常值，所以本文对输入数据和输出数据进行了标准化处理，以建立更准确的模型。1.2.2相关性分析相关性分析主要是研究两个变量间线性相关程度的强弱，即密切程度7。本文采用皮尔逊（Pearson）相关系数来检验预测值与实际值之间的密切程度及拟合情况。皮尔逊相关系数也被称为皮尔逊积矩相关系数，通常用 X,Y表示，它被广泛应用于度量随机变量 X 和 Y 之间的相关程度，计算公式为X,Y=cov（X,Y）XY（2）式中：cov（X，Y）为变量 X 和变量 Y 之

8、间的协方差；X为变量 X 的标准差；Y为变量 Y 的标准差。2模型构建与评估2.1模型构建2.1.1MLP 模型构建MLP 也叫人工神经网络，它除了输入层和输出层，中间还可以有很多隐藏层，最简单的 MLP 具有 3 层结构。本文采用的是 6 层结构，即具有 1 个输入层、4 个隐藏层、1 个输出层，见图 2。MLP 具有 6 个输入神经元，代表 6 种主要污染物，1 个输出神经元代表 AQI，模型含有的隐藏层的神经元越多，代表模型的拟合能力越强。2.1.2激活函数引入本文中所构建的 MLP 模型由于 AQI 值和各个污染物浓度值之间并没有简单的线性关系，因此必须引入激活函数到 MLP 模型中，

9、并在神经元中增加非线性因素，让神经网络可以任意逼近非线性函数。在激活函数研究早期主要是以 Sigmoid 函数为主，近些年在多层神经网络中使用较多的是 ReLU函数。因为在反向传播时 Sigmoid 函数比较容易产生梯度消失的情形，对本文所研究的数据拟合比较不利，所以本文选择了更有利于处理本数据集的ReLU 函数作为激活函数。ReLU 函数的解析式为ReLU=max（0，x）（3）ReLU 函数是一个分段线性函数，它的非线性很弱，因此网络一般要做得很深8，网络越深，模型的泛化能力越好，这正好迎合了本文的需求。2.1.3优化器选择神经网络中的参数很多，对参数的学习和更新需要优化器来完成，优化器是

10、神经网络架构的重要环节。本文选择随机梯度下降（Stochastic GradientDescend，SGD）算法作为优化器。随机梯度下降算法是梯度下降算法的扩展，其核心是梯度期望9，它每次选择一个 mini-batch，而不是全部样本。使用梯度下降算法来更新模型参数，计算公式为=-J（；x(i;i+n)；y(i;i+n)）（4）与自适应矩估计（Adaptive Moment Estimation，Adam）优化器相比，SGD 优化器除了计算快外还有很多其他的优良性质。图 3-a 和图 3-b 分别展示了使用 SGD 优化器与使用 Adam 优化器在相同迭代次数（100 次）情况下的损失函数的对

11、数值变化曲线。相比之下，本文的优化器选择 SGD 更为合适。隐藏层1输入:6输出:36隐藏层3输入:36输出:36隐藏层2输入:36输出:36隐藏层4输入:36输出:1输出层y输入层x图 2六层感知机网络结构图可持续发展Sustainable Development-3.6-3.7-3.8-3.9-4.0-4.1-4.2-4.3-4.4020406080100损失对数值迭代次数3-aSGD 优化器损失函数变化曲线020406080100损失对数值迭代次数3-bAdam 优化器损失函数变化曲线图 3优化器损失函数变化曲线图-1.4-1.6-1.8-2.0-2.2-2.4-2.6-063-S

12、CI-TECH INNOVATION&PRODUCTIVITYNo.1 Jan.2023，Total No.348SGD 可以自动避开鞍点和一些不符合要求的局部最优解，最终的计算结果具有普遍性，它可以在具有相同分布的数据集上表现出很好的性能。2.1.4时间序列模型构建差分自回归移动平均（Autoregressive IntegratedMoving Average，ARIMA）模型是一种时间序列分析、预测方法，于 20 世纪 70 年代初由统计学家Box 和 Jenkins 提出，主要用于拟合平稳序列或可以被转换为平稳序列的时间序列，结合了自回归和移动平均的长处，具备不受数据类型束缚和适应性强

13、的特征10。ARIMA 模型在 AQI 预测中得到了广泛应用，但在影响 AQI 的 6 个主要污染物的预测中应用较少。由于本文研究的污染物浓度存在季节性差异，采用 ARIMA 模型效果不理想。为更准确地对数据进行分析和预测，选择季节性差分自回归移动平均（Seasonal Autoregressive Integrated Moving Average，SARIMA）模型。SARIMA 模型是 ARIMA 模型的拓展，对有季节性成分的变量具有很强的适应性，它的参数表示式为 SARIMA（p,d,q）（P,D,Q）m，其中：模型的非季节部分用（p,d,q）表示；模型的季节部分用（P,D,Q）表示；

14、m 为时序的周期性，本文中以月为单位，即 m=12。2.1.5SARIMA 模型定阶时间序列的平稳性要求从样本时间序列中得到的拟合曲线在未来可以沿着现有的形式延续下去，即时间序列的预测能在过去的数据中找到规律，因此要将非平稳的时间序列转换为平稳的时间序列11。通过单位根检验（ADF 检验），只要统计量小于1%，5%和 10%水平的临界值，且 P 值小于 0.05，则可以拒绝原假设12。本研究中以 PM10浓度为例的原始序列的 P 值为 0.672，大于 0.05，因此不能拒绝原假设，原序列不平稳。由于原始数据是不稳定的，为了得到一个稳定的序列，需要对原始数据进行一阶差分13。以 PM10为例，

15、序列 y1经过一阶差分后的自相关函数（Autocorrelation Function，ACF）图和偏自相关函数（Partial Autocorrelation Function，PACF）图分别见图 4-a 和图 4-b。从图中可以看出，一阶差分后的 PACF 图突刺明显，效果并不显著，说明 y1中有季节成分。为了消除数据的季节性，对序列 y1求一阶差分后得到序列 y2，对 y2进行单位根检验（ADF 检验），检验结果见表 1。可以看出 P 值远小于 0.05，因此可以认为原假设不成立，说明序列 y2已经是平稳序列14。表 1序列 y2的单位根检验结果序列 y2的 ACF 图和 PACF 图

16、分别见图 5-a 和第 65 页图 5-b，由图可以初步确定 p=1，q=1。直观上通过 ACF 图和 PACF 图确定模型的最优参数仍然很困难。为了确定最优模型阶数，本文根据最小信息量准则（Akaike Information Criterion，AIC）选择 AIC 最小的模型作为候选模型15。通过对各候选模型进行筛选和比较，模型 SARIMA:（1，1，1）x（0，1，1，12）的 AIC 值为 421.63，在所有候选模型中为最小值，因此本研究选择该模型为最优模型。1.00.80.60.40.20.0-0.2-0.4自相关系数0510152025303540阶数1阶4-a一阶差分后的 ACF 图ADF 检验统计量值P 值1%水平下的临界值5%水平下的临界值10%水平下的临界值-6.587.5710-9-3.54-2.90-2.594-b一阶差分后的 PACF 图图 4序列 y1一阶差分后的 ACF 图和 PACF 图2.01.51.00.50.0-0.5-1.0偏自相关系数阶数1阶0510152025303540可持续发展Sustainable Development阶数

展开阅读全文

基于MLP和SARIMA的青岛市AQI预报模型_马风滨.pdf