1、安徽职业技术学院学报JOURNAL OF ANHUI VOCATIONAL AND TECHNICAL COLLEGE第22卷第1期2023年3月Vol.22 No.1Mar.2023基于大数据技术的雾霾天气预测模型研究张平华1,贾万祥2(1.合肥职业技术学院信息工程与传媒学院,安徽合肥230000;2.万博科技职业学院智能信息学院,安徽合肥230000)摘要:雾霾天气成因复杂,预测较为困难。经深入分析相关技术和文献资料,在大数据技术支持下,将时空维度中已知空气质量数据与气象数据动态集成,构建了一种基于深度神经网络技术在时间维度和空间维度相融合的空气质量预测模型基于深度神经网络的空气质量预测模
2、型。经实验证实,此模型可预测目标站点未来的空气质量状况,且预测结果更加准确,可为环境治理提供理论参考。关键词:大数据;雾霾;空气质量;预测模型;神经网络中图分类号:TP39;TP18;X51文献标识码:A文章编号:16729536(2023)01000706Abstract:The causes of haze weather are complex and difficult to predict.Through in-depth analyses ofrelevant technologies and literature,under the support of big data tec
3、hnology,the known air quality data inthe space-time dimension and meteorological data are dynamically integrated.An air quality prediction model based on the deep neural network technology,which combines the time dimension and the space dimension,is constructed.The experimental results show that the
4、 model can predict the future air quality of the target station,and the prediction results are more accurate,which can provide a theoretical reference for environmental governance.Key words:big data;haze;air quality;prediction model;neural network空气质量的好坏关系人类前途命运,工业的快速发展导致大气中可吸入颗粒物含量大幅上升。据生态环境部发布的 关于
5、深入打好污染防治攻坚战的意见 2021年环境监测行业发展评述和2022年发展展望 及2021年 中国生态环境状况公报1-3显示,2021年全国218个地级及以上城市环境空气质量达标,同比上升 3.5个百分点,121 个 城 市 环 境 空 气 质 量 超 标。PM2.5、PM10、O3、SO2、NO2和CO六项指标年均浓度同比首次全部下降,其中,PM2.5同比下降9.1%,已实收稿日期:20230102基金项目:安徽省高等学校2020年拔尖学科(专业)人才学术资助项目(gxbjZD2020116);合肥职业技术学院人才引进自然科学重点项目“现代网络安全技术及其在校园网络中的研究与应用”(202
6、1KYQDZ009);2022年度安徽省高校自然科学研究项目“基于人工蜂群算法的城市生活垃圾回收物流网络优化设计研究”(2022AH052236);2020年度安徽省高校自然科学研究项目“现代网络安全技术及其在校园网中的研究与应用”(KJ2020A1172)作者简介:张平华(1981),男,汉族,安徽东至人,教授,硕士,研究方向:信息系统与智能计算,网络安全。第22卷安徽职业技术学院学报现六连降;PM2.5和O3浓度连续两年双下降。1 雾霾危害研究世界卫生组织(World Health Organization,WHO)在 2021 年发布的 2021 世界卫生统计报告(World Healt
7、h Statistics 2021)中指出:“空气污染已成人类健康最大环境威胁之一,每分钟有13人死于空气污染”。在气候变化愈发严重的同时,人们对石油、煤等传统能源的严重依赖也在一定程度上加重了环境污染,进一步加剧了气候恶化。研究表明,雾霾主要由火力发电厂、钢铁锻造厂、橡胶(轮胎制造等)厂等高耗能企业在生产过程中产生的粉尘及超细颗粒物的直接排放导致。同时,由于汽车保有量的大幅增加和国家的城镇化的推进,对引发雾霾天气也有一定的影响。为尽快找到以PM2.5和PM10为主要污染物雾霾天气的形成机理和时空变化规律,国内外学者通过大量的研究调查和实验,探索了雾霾的成因与雾霾天气预测技术。任阵海(2008
8、)等4通过技术手段持续对监测到的大气环境监测数据进行深入分析,得出我国大气污染程度呈北高南低之势,首要污染物也由有害气体S02变为可吸入颗粒物 PM10,并画出了全国范围 API 年日均值分布图。崔菲(2016)等5持续多年对山东省泰安市的7个环境监测点进行数据采集,采用插值法分析了污染物在该市的全年时空变化特征。李柞泳(2000)6等建立了基于遗传算法和BP神经网络的大气污染物浓度预测模型,对空气质量进行预测,取得了一定的成果。Peter(2003)等采用粗糙集方法分析了气象雷达数据,提高了数据分析的精准性。Davis(2002)7等研究发现,电力行业和重工业的发展是主导雾霾天气的主要因素。
9、Kavouras(2018)8等研究认为,汽车生产、石油炼治等重型生产制造业和汽车尾气排放等是导致空气污染物中的PM2.5和PM10浓度增加的主因。2 雾霾预测模型2.1 空气质量指数及计算空气质量指数(Air Quality Index,AQI)主要依据SO2、NO2、CO、O3、PM10、PM2.5等六种污染物的实测浓度值,分别按式(1)计算出空气质量分指数(Individual Air Quality Index,IAQI),从各项污染物的 IAQI中选择最大值确定为 AQI(如式(2)所示)。IAQIi=Ci-Ci,jCi,j+1-Ci,j(IAQIi,j+1-IAQIi,j)+IAQ
10、Ii,j(1)其中,IAQIi是第i种污染物的污染分指数;Ci是第i种污染物的浓度值;IAQIi,j是第i种污染物j转折点的污染分项指数值;Ci,j是第j转折点上i种污染物(对应于IAQIi,j)浓度值;Ci,j+1是第j+1转折点上i种污染物(对应于IAQIi,j+1)浓度值。AQI=maxIAQIso2,IAQINo2,IAQIo3,IAQIco,IAQIPM2.5,IAQIPM10(2)2.2 建模原理传统的前馈神经网络认为所有的输入都是相互独立的,输出只与当前的输入有关,没有时间序列的概念,而目前通用的空气质量数据均由监测站点实时采集,属于时序数据,空气污染物浓度在气象因素(如风向、风
11、速、晴、雨等)作用下,目标站点或目标城市的空气质量均会受前一段时间的污染物浓度的影响,为了解决该问题,同时也能更加精确地预测空气质量,必须设计一种可以基于之前的序列来进行预测的方法。循环神经网络(Recurrent Neural Network,RNN)中所利用的数据有时间先后顺序,其输出结果不仅能依赖当前的输入,也依赖历史数据的记忆,当前样本受前序样本的影响较大,但不适用于处理时空跨度较长的历史数据。2.2.1 长短期记忆网络模型Hochreiter 和 Schmidhuber 于 1997 年首次提出一种改进后的循环神经网络模型长短期记忆网络9(LSTM,Long Short-Term M
12、emory),可以完美地解决循环神经网络存在的长期时间依赖问题。LSTM适合用于处理和预测与时间序列相关的非确定性多项式(Non-deterministic Polynomial,NP)问题。长短期记忆网络是一种典型的含有智能网络单元10(也称记忆单元、LSTM区块)的时间循环神经网络,其单元可以有选择的记忆不定时间长度的数值。LSTM网络的循环体结构由8输入门(记忆门)、输出门和遗忘门组成11。LSTM模型结构如图1所示,三个控制门之间的关系如图2所示。图2控制门关系图LSTM通过输入门(记忆门)对输入的数据进行学习和记忆,以达到对信息的预测。遗忘门通过读取前置神经元的输出信息(ht-1)和
13、当前时刻的输入信息(xt)来决定记忆多少前置神经元的单元状态到当前神经元的单元状态中12,遗忘门的计算过程如式(3)所示。输入门用于控制数据输入到当前状态,输出门控制当前时刻的输出13。输出门根据式(7)和式(8)计算并输出结果ht,同时将t时刻的结果ht作为 t+1时刻的输入信号。ot=(wo ht-1,xt+bo)(3)其中,=11=e-x输出(0,1);ht-1表示上一时刻的输出信息。LSTM的工作流程:首先,遗忘门选取一部分前置单元状态保留到当前单元状态中;然后,输入门通过式(4)和式(5)计算将Ct,并将结果作为新的候选值,以决定有多少输入信息可以保存在单元状态Ct中;最后,将前置单
14、元状态通过权值ft、it和新的候选值Ct,利用式(6)更新当前单元状态(依据遗忘门和记忆输出值更新细胞状态)。Ct=tanh(Wc ht-1,xt+bc)(4)it=(Wi ht-1,xt+bi)(5)Ct=ftCt-1+it Ct(6)Ot=(Wo ht-1,xt+bo)(7)ht=Ottanh(Ct)(8)2.2.2 空气质量预测模型框架空气质量受多种气象因素影响,在时间上,空气污染物是动态的,存在一定的延续性;在空间上,城市间的空气污染物的浓度相互影响,具有扩散性。在多因素的干扰下,传统空气质量预测模型很难建立空气质量污染物大数据间的时空关联,不易通过大数据技术对历史数据进行学习,难以寻
15、找出影响空气污染的规律和污染发生的概率。鉴于以上原因,通过对分析大量的文献研究,提出了一种建立在时间和空间两个维度上的空气质量预测模型基于深度神经网络的空气质量预测模型(Air Quality Prediction Model based onDeep Neural Network,AQP-DNN 模型)。AQP-DNN模型主要利用LSTM这种特殊的CNN技术,通过对上一阶段的空气污染物在时空上的历史数据进行深度学习与处理,模型动态集成时空预测值,构建时空预测聚合器等来解决传统方法对空气质量预测不足的问题。AQP-DNN预测模型的系统总体架构如图3所示。张平华,等:基于大数据技术的雾霾天气预测
16、模型研究图1长短期记忆网络结构图9第22卷安徽职业技术学院学报图3空气质量预测模型架构图在模型中分别构造时间预测模块和空间预测模块。时间预测模块用于收集并处理监测站点依时间顺序监测到的数据,提取气象数据特征、空气质量污染物特征 AQI值和时间数据特征进行拼合,采用LSTM模型构建出时间预测器模型对拼合数据进行回归预测训练,以预测未来时间段的空气污染物AQI值。在风向、风速、降水等气象因素的影响下,监测站的空气污染物会向周边其它城市或监测站扩散,从而影响周边城市、站点。在此采用DNN来构造空间预测模块,将本地监测站的空气质量数据和周边站点采集到的历史空气污染物数据作为空间预测模块的输入数据对目标站点空气质量进行预测。2.2.3 预测结果集成原理为进一步提高预测精度,在预测模型中利用LSTM时间预测器和DNN空间预测器重新构造一个预测聚合器。首先,将LSTM构造的时间预测器预测的结果与通过DNN空间预测器预测的结果进行深度融合组合成一个新的预测聚合器向量,利用新的特征向量创建一棵分类回归决策树。然后,依据目标站点的各项空气质量数据和风向、风速、降水等气象数据14,对时间预测器和空间预测器赋