基于自监督学习的交通数据补全算法_周楚昊.pdf-资源下载-蜗牛文库-知识共享服务平台

基于自监督学习的交通数据补全算法_周楚昊.pdf

1、第 51 卷第 4 期2023 年 4 月华南理工大学学报（自然科学版）Journal of South China University of Technology（Natural Science Edition）Vol.51 No.4April 2023基于自监督学习的交通数据补全算法周楚昊1 林培群1 闫明月2（1.华南理工大学土木与交通学院，广东广州 510640；2.交通运输部路网监测与应急处置中心，北京 100088）摘要：区域高速公路网收费站数量众多，每日产生海量收费数据，但由于设备、网络等因素，部分站点数据传输存在延迟现象，在此情况下已传输的数据往往

2、不能满足实时流量预测的要求。为了实现实时交通数据补全和动态交通流量预测，文中首先提出了一种基于自监督学习的用于高速公路交通流量数据缺失补全的方法，该方法采用了基于注意力机制的时间序列模型（Seq2Seq-Att）；然后使用自监督学习方式对模型进行训练；最后，以广东省高速公路网的80个收费站为例，验证方法的可靠性。结果表明：文中的数据补全方法能够灵活捕捉交通数据中的缺失情况，并根据数据自身的内在关联性，给出合理的补全值；该方法总体优于其他方法，且在不同缺失率下都有较好表现，总体MAPE约为17.7%、WMAPE为12.8%；在高缺失率情况下，该方法相比于其他补全方法有明显的优势。交通量预测结果表

3、明，使用该方法补全的数据进行交通流预测的预测精度接近使用完整数据的情况。关键词：数据补全；自监督学习；交通流预测；机器学习；高速公路中图分类号：U491文章编号：1000-565X（2023）04-0101-14交通领域数据采集方式由传统的交通调查等逐渐向电子化、信息化的发展，推动了交通大数据的应用与发展。自动化数据采集很大程度上节约了人力成本，并且具备非常高的准确度以及较好的实时性，数据覆盖面也更广。但是，由于通信系统并不能做到百分百可靠，因此，数据在传输过程中难免会发生一定概率的丢失或者延迟，导致数据实时性受损，所以，为了能更好地将数据应用于下游任务，需要对这些交通数据进行相应的补全。根据

4、缺失机制，可将数据缺失分为3类，分别为完全随机缺失、随机缺失以及非随机缺失。对于交通流数据的缺失，可认为是完全随机缺失。对于这种缺失方式，最简单的方法就是直接删除1。但是，简单删除的方式降低了数据集的多样性，并且会影响后续的交通分析，因此，对于交通缺失数据的处理主要采用修复的方式2。目前，能获取的数据量越来越全面；因此，可以通过观测数据的具体分布来对缺失部分进行估计，较为典型的是期望最大化算法（Expectation Maximation，EM）3。韩卫国等4利用路口线圈检测器获取交通流量，使用多种方法对其进行缺失补全，结果表明，EM算法能在异常情况（恶劣天气、交通事故等）下，获得更好的补全效

5、果；但是，该方法需要大量的迭代计算，并且容易陷入局部最doi：10.12141/j.issn.1000-565X.220237收稿日期：20220427基金项目：国家自然科学基金资助项目（52072130，U1811463）；广东省自然科学基金资助项目（2020A1515010349）；华南理工大学中央高校基本科研业务费专项资金资助项目（2020ZYGXZR085）Foundation items：Supported by the National Natural Science Foundation of China（52072130，U1811463）and the Natural Sci

6、ence Foundation of Guangdong Province（2020A1515010349）作者简介：周楚昊（1994-），男，博士，主要从事交通大数据、智能交通等研究。E-mail：通信作者：林培群（1980-），男，教授，博士生导师，主要从事交通大数据、智能交通等研究。E-mail：第 51 卷华南理工大学学报（自然科学版）优。另一个常用的算法是源于贝叶斯估计的多重插补法（Multiple Imputation，MI）5。Li等6构建了一种基于链式方程的多重插补法，并应用于交通事故数据的补全，进而能够更好地运用其他统计方法对事故数据进行分析；不过，该方

7、法需要创建大量插补集来进行分析，因此，实时性会有所折扣。对于具备时间特性的交通流数据来说，不同时段的数据往往具有一定的关联性，基于这一点来考虑，线性插值7也是可行的方法；不过，该方法仅仅只是考虑前后的数据特征，因此，对于多维度特征以及高缺失率的情况，适用性不高。而另一种能够考虑不同时段数据关联性的方法则是K-最近邻算法（K-Nearest Neighbor，KNN）。秦一菲等8提出了一种使用距离占比来作为近邻值权重的改进KNN算法，并将其应用于交通流异常数据的修复；但是，KNN的K值选择，以及距离度量方式都会影响补全精度。Kaur等9构建了一种基于统计原则的回归方法对线圈检测数据进行修复，能够

8、以较低的计算复杂度获取不错的补全精度；但这种方式还是难以利用额外信息，如时间信息。随着计算机性能的不断提升，越来越多的研究开始使用深度学习模型来实现数据补全10-12。王力等13利用生成对抗网络（Generative Adversarial Network，GAN）对交通路网中的流量缺失进行补全或重构，能够有效应对城市道路中路段检测器覆盖不全或者设备损坏的情况；Liang等14构建了一种记忆增强的动态图卷积神经网络来捕捉路网交通流的时空信息，以达到补全数据的目的。由于深度学习模型会使用大量参数，但大多数方法对于参数的利用存在冗余，并没有充分利用参数以达到对各种缺失状况进行补全的目的。综合文献来

9、看，虽然有不少关于交通数据补全的研究，但存在以下两个问题：（1）目前的研究基本都是对于历史数据的补全，即大样本中部分数据出现缺失，如何进行填充；少有研究针对一些延迟数据进行实时补全。（2）对于交通数据补全，往往都是需要完成一些下游任务（如交通流预测），但少有研究针对补全数据是否能够良好地应用于这些任务进行检验。为了解决上述两个问题，本研究提出了一种基于自监督学习的数据补全方法，并将其应用在高速公路交通量补全，然后使用补全数据进行流量预测。1基于自监督学习的数据补全模型1.1交通延迟数据目前，广东省有上千个高速公路收费站点，其中，经过高速公路的每辆车的行程都会被收费系统记录；但是，由于某些收费站

10、点的数据传输到数据中心有延迟，导致从数据中心获取到的一些时段的统计数据（如交通量）会有所缺失（这些数据都会在一定时间后传输完成）。图1详细展示了数据流动的过程。从该图可以看出，数据延迟是由于高速公路部分路段收费中心传输出现问题，导致省中心的数据短时间内不完整，而为了下游任务的顺利进行，需要对其进行补全。1.2高速公路交通量补全问题对于交通流量数据的补全，本质上可以看作是一种自监督学习15，即通过让模型理解未缺失部分的规律来补全缺失部分。自监督学习目前已在图像处理13以及自然语言处理14等方面取得了非常好的效果，通过该方式可以让模型很好地理解数据本身的规律，从而更好地将其应用于一些下游任务。交通

11、流量相比于图像、语言等数据，有更加明显的周省联网收费管理中心(省中心)路段收费中心路段收费中心路段收费中心收费站收费站收费站正常传输延迟传输正常传输.下游任务数据补全算法不完整数据完整数据交通流预测深度学习传统方法图卷积神经网络多层感知机长短时记忆网络KNNGBRTRandom Forest 图1实时交通量预测流程Fig.1Real-time traffic volume prediction process102第 4 期周楚昊等：基于自监督学习的交通数据补全算法期规律以及空间关联性，不仅仅可以输入最近时段的数据，还可以输入之前未缺失时段的数据来表征其周期规律或者一些早晚高峰特性。设收费站

12、构成的集合为，且|=n。然后对这些站点的数据进行统计整理，将交通流量转换为以下格式。Xt=|x(t-l+1)1x(t-l+1)2x(t-l+1)nx(t-l+2)1x(t-l+2)2x(t-l+2)nxt1xt2xtn（1）Xt-l=|x(t-l-r+1)1x(t-l-r+1)2x(t-l-r+1)nx(t-l-r+2)1x(t-l-r+2)2x(t-l-r+2)nx(t-l)1x(t-l)2x(t-l)n（2）矩阵Xt中的每一个元素表示在当前t时段之前的l个历史时段的不同站点的交通流量，矩阵Xt-l的每个元素则是在t-l时段之前的r个历史时段的不同站点的流量。由于缺失基本只发生在最近的时段，

13、因此，这里假设数据的缺失仅发生在Xt当中。由于用于自监督学习的历史数据都是完整的，所以为了更好地描述缺失的情况，需要额外引入掩码Mt来表示Xt当中的数据缺失。Mt中的元素服从0-1分布B(m，p)，其中p代表缺失概率，m表示Mt的大小，即二项分布的试验次数，Mt中的元素为1的位置表示该点有缺失。由于缺失部分不应该当作0来处理，因此，根据掩码对缺失部分填入噪声数据，用公式表达为X?t=Xt(1-Mt)+BtMt（3）式中，X?t表示受到干扰的输入数据，Bt是服从独立同分布的噪声变量，表示按位相乘。由于每一次发生缺失的数量并不一定相等，因此，为了能让模型更全面地理解数据自身规律，对于缺失概率p，使

14、之对于每一个样本都不同，即让p服从均匀分布U(0，pmax)，pmax表示最大缺失概率。通过以上分析，可以将问题用式（4）表示：Xt=G(X?t，Xt-l|Mt)（4）式中，G表示模型的映射函数。该式的含义为：在已知数据缺失位置（Mt）的情况下，通过学习完整数据（Xt-l）的历史规律以及干扰数据（X?t）的前后关联和相似特征来还原出缺失数据的完整情况（Xt）。1.3模型架构及计算过程由于交通流量本身具备较强的时间关联性，因此，本研究采用带注意力机制的时间序列模型18（Sequence to Sequence with Attention Mechanism，Seq2Seq-Att）实现交通流量

15、的自监督学习，模型框架如图2所示。图 2 中的X?t表示经过模型补全后的结果。Seq2Seq-Att通过Encoder-Decoder的结构来实现对交通流量的动态分析，从而充分掌握自身规律。Encoder中采用的是双向LSTM（Bi-LSTM）19，Decoder中则是单向LSTM。由于Xt-l与X?t在时间段上是连续的，因此，这里将其一并输入到Encoder层当中。交通流量与时间有高度相关性，因此，通过在流量数据中加入相关的时间信息，能够很大程度上帮助判断该时段的流量情况，从而提高数据补全的精度。本研究采用独热（One-Hot）编码将时间标签离散化，然后选取了月、日、时、分、是否是节假日、是

16、否周末、星期这些时间信息。将所有信息编码后进行拼接，设拼接后的向量为初始值.BiLSTMBiLSTMLSTMLSTMLSTM.BiLSTMBiLSTM.时间注意力背景向量.InputEncoderDecoderOutputXt-lXtMt维度嵌入+时间编码vt-lvt-l+1vt-1St-l+1St-l+2Stxt-l-r+1xt-l-r+2xt-lxt-l-r+1xt-lxt-l+1xt-l+2xt?xt-l+1?xtct-l-r+1ct-lct-l+1ctxt-lxt-l+1xt-1xt-l+1xt-l+2xtXt 图 2交通量数据补全模型框架Fig.2Framework of traffic volume data imputation model103第 51 卷华南理工大学学报（自然科学版）Tencodert R(l+r)dtime，dtime表示拼接后的编码长度。然后，使用正弦、余弦函数将时间标签的One-Hot编码映射到Encoder结构所在维度，并与隐层的输出向量相加，从而使之携带时间信息20。映射矩阵的计算公式为P(i，j)=|sin(i/10

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？