1、文章编号:1009-6094(2023)04-1336-13基于 KCNNBiLSTM 的关联区域 VOCs 浓度时空关联预测*黄光球,王瑞泽,陆秋琴(西安建筑科技大学管理学院,西安 710055)摘要:为了提升关联区域内 VOCs 浓度预测精度,基于深度学习理论构造了 K CNN BiLSTM 时空关联预测模型。同时,为了实现 VOCs 精细化治理,首先对研究区域进行了网格划分,采用 IDW 进行空间插值,计算整理得到 VOCs 的网格数据集。其次使用 KNN 算法计算空间相关性筛选得到空间相关矩阵,按照时序排列拼接成时空类图。然后将时空类图输入 CNN 模型中提取局部时空特征,最后将提取的
2、时空特征送入双向 LSTM 中进行全局预测。以西安市某区为例,对 VOCs 浓度进行预测,并将预测结果进行时空分布可视化。结果表明:模型具备单步预测和多步预测能力,同时与 CNN BiLSTM、CNN LSTM 和 LSTM 相比考虑了 VOCs浓度数据的时空关联性,预测精度更高;平均均方根误差(MSE)、平均绝对值误差(MAE)和平均绝对百分比误差(MAPE)分别为 6.352、5.442 和 10.252%,均优于对比模型。关键词:环境工程学;VOCs 浓度预测;KNN;CNN BiLSTM;时空关联中图分类号:X511文献标志码:ADOI:10.13637/j issn 1009-609
3、4.2021.2172*收稿日期:2021 11 29作者简介:黄光球,教授,博士,从事污染排放控制与管理及数据挖掘研究,。基金项目:国家自然科学基金项目(71874134);陕西省自然科学基础研究计划项目(2019JZ 30)0引言随着我国经济的快速发展、工业化进程的加快以及城市化水平的不断深化,区域性大气污染问题日益 突 出1 2。挥 发 性 有 机 物(Volatile OrganicCompounds,VOCs)是大气化学反应过程中的重要参与者,它们既可以和氮氧化物(NOx)反应产生臭氧(O3),又能通过形成二次有机气溶胶(SOA),对生成 PM2.5具有重要贡献3 4。同时,VOCs
4、 可能会引发心血管疾病和呼吸系统疾病5 7,严重危害了人们的身体健康。因此,对 VOCs 浓度的预测研究有助于掌握其变化和发展规律,为政府部门制定防控对策提供理论支持,对治理大气污染和保障公众健康安全具有重要意义。目前,针对空气污染物的预测方法主要有数值模型、统计模型和神经网络模型。数值模型是基于相关理论知识对污染物在大气中的物化反应过程进行模拟以预测其浓度的变化。国内外常用的数值模型 有 天 气 预 报 模 式(WeatheresearchandForecasting Model,WF)、空气质量预报和评估系统(Community Multiscale Air Quality,CMAQ)8
5、11,由于模拟气象场的不确定性和对污染物生成机理的模糊性导致此类模型建模难度大,预测结果不够理想。统计模型是分析数据内部规律,利用统计方法建模获取预测值。常见的统计模型主要有自回归滑动平均 模 型(AutoregressiveMovingAveragemode,AMA)12、支持向量机(Support Vector Machine,SVM)13、多元线性回归模型14 等。徐伟嘉等15 使用同期回归、多元回归两种空气质量预报统计模型,基于珠海市 4 个大气监测站点的数据对不同时段污染物浓度进行预测,评估结果显示效果良好。但统计模型对数据间的非线性特征难以建模,预测性能会降低。神经网络模型具有强大
6、的计算能力和学习能力,可以对数据深层特征进行提取,可以解决多变量、非线性复杂建模问题。主流的神经网络模型有循环神经网络(ecurrent Neural Network,NN)16、卷 积 神 经 网 络(Convolutional Neural Networks,CNN)17 18、长 短 记 忆 网 络(Longshort-TermMemory,LSTM)19 20 等。Boznar 等21 在 1993 年首次将神经网络应用于空气污染预测,利用多层感知器的网络模型对斯洛文尼亚一个电厂周边的SO2浓度进行预测。何哲祥等22通过小波分解对高维度污染物数据降维,再对分解后的序列建立LSTM 模型
7、进行预测从而提升预测精度。梁泽等23构建了耦合径向基人工神经网络算法与遗传算法的预测模型,预测北京市未来 24 h PM2.5平均质量浓度。但仅从时间维度对空气污染物浓度进行预测,忽视了污染物之间的空间相关性,可能会导致模型预测精度降低。陆秋琴等24运用点云网格算法对研究区域进行划分,由克里金插值法进行空间插值,建立了基于空间关联性和污染物特征的 VOCs 浓度随机森林模型。Liu等25提出一种基于实时分解的空间多分辨率数据驱动集成 AQI 预测模型,该模型合理考虑多分辨率和时空数据,提升了模型预测性能。以上研究存在的不足:目前针对空气污染物浓度预测的研究以时序预测为主,较少考虑污染物之间的时
8、空关联特性。为了解决上述问题,本文提出一种考虑污染物时空关联特性的大气污6331第 23 卷第 4 期2023 年 4 月安全 与 环 境 学 报Journal of Safety and EnvironmentVol 23No 4Apr,2023染物浓度预测模型。VOCs 浓度具有时空特性,一方面 VOCs 浓度会随着时间的推移而变化,另一方面空气污染物发生扩散或迁移时会导致空间相关区域内 VOCs 浓度发生变化。K 最邻近算法(K NearestNeighbor,KNN)可以计算 VOCs 浓度数据的空间相关性,而卷积神经网络(CNN)和双向长短期记忆网络(BiLSTM)可以提取到局部和全
9、局时空特征,将三者的优良特性结合在一起建立时空关联预测模型(K CNN BiLSTM)以期实现区域内 VOCs 浓度的时空关联预测。1基于 KCNNBiLSTM 的区域 VOCs时空关联预测模型概述1.1网格划分与空间插值VOCs 在气象条件、地理环境等因素的影响下会在区域内扩散和流动,使区域内 VOCs 呈现不同的分布特征。为了方便研究区域内 VOCs 的时空特性以及实现大气防控精细化管理,本文采用网格划分方法,将研究区域的矢量数据导入 ArcGIS 10.2 中,划分为单元分辨率为 1 km 1 km 的 n 个网格,采用右下角为起点的编号方式,以 Gi代表第 i 个网格(其中 i 代表网
10、格标号,i=1,2,3,n)。同时,建立地理坐标系来描述网格的空间位置。每个网格中心点储存经纬度坐标,其集合 定义如式(1)所示。=(x1,y1),(x2,y2),(xn,yn)(1)其中(xi,yi)代表第 i 个网格中心的经纬度坐标,i=1,2,3,n。为了实现网格精细化管理,需要获取每个网格内的 VOCs 浓度。受资金和地理条件的限制,不能在每个网格内安放监测设备来获取 VOCs 浓度。为了解决这一问题,考虑使用地统计学中的空间插值方法对网格内的 VOCs 进行插值。空气污染物常用的空间插值方法有:普通克里金法26、反距离权重法27 等。本文选取反距离权重法进行空间插值。反距离权重法又称
11、反距离加权法,是一种假定所映射的变量随着采样位置间的距离的增大而减小的方法。反距离权重法主要依赖于反距离的幂值。幂参数可基于距输出点的距离来控制已知点对内插值的影响。其计算过程如式(2)、(3)所示。Gi(v)=Nj=11dijGj(v)Nj=11dij(2)dij=(xi xj)2+(yi yj)槡2(3)式中i 代表第 i 个网格,Gi(v)为网格 i 的待估值,Gj(v)为网格 j 的实测值,dij为网格 i 与 j 之间的欧式距离;(xi,yi)、(xj,yj)分别是网格中心经纬度坐标(xi,yi)、(xj,yj)经过坐标变换后得到的笛卡尔坐标。N 为周围实测值网格数;为幂指数。本文将
12、幂指数设为 7 来进行插值计算28。1.2数据特征与处理VOCs 作为 PM2.5和 O3的重要前体物,在一定的气象因素作用下,会和大气中的污染物发生物化反应,导致 VOCs 浓度发生变化。因此 VOCs 浓度的变化受到多种环境因素的影响,这些因素呈现非线性、高耦合、关系复杂的特点。本文选取 VOCs 质量浓度监测数据和 PM2.5、PM10、SO2、NO2、O3、CO 这 6 种常见的污染物的质量浓度数据作为空气污染物特征;选取相对湿度、气压、气温、风速、水汽压、露点温度、能见度作为气象特征。具体特征如表 1 所示。表 1特征变量表Table 1Feature variable table类
13、别特征变量变量符号单位监测数据VOCs 质量浓度v1g/m3空气污染物特征PM2.5质量浓度v2g/m3PM10质量浓度v3g/m3SO2质量浓度v4g/m3NO2质量浓度v5g/m3O3质量浓度v6g/m3CO 质量浓度v7g/m3气象特征相对湿度v8%气压v9hPa气温v10风速v11m/s水汽压v12Pa露点温度v13能见度v14km每个网格中储存着逐小时的监测数据、空气污染物特征和气象特征的数据信息。对于第 i 个网格,在 q 时 刻 下 特 征 变 量 数 据 集 为 Gi(Vq)=(Gi(vq1),Gi(vq2),Gi(vq14)。数据集中 Gi(vqj)代表第 i 个网格在 q
14、时刻下第 j 个特征值。其中 i=1,2,3,n,q=t s,t s+1,t 1,j=1,2,3,14。1.3区域 VOCs 时空关联预测模型建立区域内 VOCs 浓度在气象条件的影响下随着时间发生变化,同时关联区域内的空气污染物会相互影响导致 VOCs 浓度的变化。因此要考虑融合时间和空间两个维度的特征对 VOCs 浓度进行预测,建立时空关联预测模型。73312023 年 4 月黄光球,等:基于 KCNNBiLSTM 的关联区域 VOCs 浓度时空关联预测Apr,2023本文建立的 VOCs 时空关联预测模型主要分为以下 3 个部分:KNN 生成时空类图、CNN 局部时空特征提取、BiLST
15、M 全局时空预测。具体模型结构如图 1 所示。图 1KCNNBiLSTM 结构模型图Fig 1Structure model diagram of KCNNBILSTM假设待预测网格为 i,以过去 s 个历史时刻为时间步长。网格 i 在 s 个历史时刻下的 VOCs 特征变量数据集(Gi(Vts),Gi(Vts+1),Gi(Vt1)输入KNN 模型中计算与周围网格的空间相关性,筛选前k 个网格,按照距离从小到大进行排列,生成空间相关矩阵(Mts,Mts+1,Mt1)。将 s 个历史时刻的空间相关矩阵进行拼接,得到 VOCs 时空类图 P。之后,时空类图输入 CNN 模型,经过卷积层提取局部时空
16、特征,池化层压缩时空特征,全连接层融合时空特征得到一维局部时空关联向量槇y1,槇y2,槇ys。时空关联向量输入 BiLSTM 模型预测得到 t 时刻网格 i的 VOCs 浓度预测值 Gi(vt1)。1.4相关原理1.4.1基于 KNN 的空间相关性计算KNN(K 近邻)算法29 是一种常见的机器学习算法,其原理简单、理论成熟,常被用来解决分类和回归问题。KNN 算法的基本原理是将目标数据集中每个数据的特征与训练集中每个数据的特征基于距离度量进行计算,计算完毕后选出前 k 个距离最小的数据,作为归属类别。距离代表两者的相似程度,距离越小则说明相似度越高。根据地理学第一定律30,距离越近,地物间相关性越大。本文采用基于的 KNN 算法来筛选网格空间相似区域,通过计算预测网格与附近网格所有特征变量之间的欧氏距离,得到网格间的空间相关性。距离越小则说明两个网格空间相关性越大。计算过程如式(4)所示。di,j=mk=1(Gi(vqc)Gj(vqc)槡2(4)式中di,j为预测网格 i 与周围网格 j 之间的欧式距离,m 代表特征向量维数,Gi(vqc)代表预测网格 i 在q 时刻第 c 维特征变