1、本栏目责任编辑:闻翔军本期推荐Computer Knowledge and Technology电脑知识与技术第19卷第18期(2023年6月)基于时空相关性的交通物联网缺失数据填补算法梁庆1,付青坤2,田海安1,彭志浩1(1.中铁城市发展投资集团有限公司,四川 成都 610000;2.长安大学 信息工程学院,陕西 西安 710064)摘要:针对交通物联网中传感数据存在缺失问题,根据交通领域传感器空间布局具有线性分布的特征,以及感知数据在时间上的广义随机平稳特性,提出基于时空相关性的LIN_BP数据填补算法。当缺失数据个数为1时,利用空间相关性创建BP神经网络模型进行数据估计。当缺失数据为多个
2、时,首先,基于时域平稳性建立线性插值(Linear Interpolation,LIN)模型;随后将LIN模型的估计值与已知数据输入到BP神经网络模型,得到基于时空相关性的LIN_BP模型的估计数据。为了验证模型的有效性,对高速公路多个检测点的交通流量真实数据进行实验分析。实验结果表明,相比只使用单一属性的模型本算法的估计误差小、准确度更高、填补效果更好。关键词:交通物联网;缺失数据填补;时空相关性;线性插值;BP神经网络中图分类号:TP274 文献标识码:A文章编号:1009-3044(2023)18-0004-06开放科学(资源服务)标识码(OSID):0 引言随着以交通物联网为基础的智慧
3、高速的发展,通过全面感知道路基础设施、行驶车辆等交通参与方的数据,可有效开展面向安全和效率的主动智慧管控,为基于车路协同的无人驾驶提供技术支撑,提升交通运输的安全性、高效性和舒适性。然而在智能感知的过程中,一方面,由于智能网联汽车的数量快速增长,带来的海量数据传输和计算问题更加突出;另一方面,移动边缘计算的介入,车载移动端和路侧设备之间数据的无线传输占比增加,而由于车辆的移动性和传输环境的时变性,导致多径传输和多普勒效应也愈加突出。上述问题会使数据采集时存在缺失和误码的概率提高,然而由于部分业务具有严苛的实时性要求,不能采用出错重传机制,因此,在接收端对关键数据进行自主的前向纠错,重建缺失数据
4、将是必然选择。数据缺失主要来自两方面:一方面,传感器的故障会导致不定期的数据空白,这种缺失往往持续时间较长,很难用算法进行填补重建,不属于本文研究的范畴。另一方面,由于数据传输过程中的信道噪声,而导致的零星误码或缺失,可通过本文的方法进行数据填补重建,这是本文的研究内容。当前,数据重建技术分为时域、频域和空域三大类。对于时域重建技术,主要依据同一传感数据在时间序列上的相关性进行数据填补,文献1从已有数据中提取不同类型的数据基信号,并利用基于时间序列的线性关联映射重建缺失数据。文献2基于传感数据在一个嵌套滑动窗口内的相关性,提出一种数据流缺失恢复方法。文献3提出一种针对缺失数据的谱分析方法,通过
5、更新估算因子来修正时域重建算法,提高数据重建精度。文献1-3均利用了时域数据的随机平稳特性,适合数据变化不大的静态物联网领域。例如河道水位检测、交通基础设施的状态检测等。但对于车速、断面流量等和交通流密切相关的实时交通元素,数据虽然具有广义随机平稳特性,但时域变化剧烈,时域相干窗口较小,在此窗口内采集到的原始有效数据较少,提取的特征值往往离散度大,若加大插值窗口又会导致缓存数据过多,处理时延长,且数据的时域关联性呈时间选择性衰落,适用性难以保障。关于数据重建在空域中的研究,主要通过分析多个传感器在空间部署位置的相关性来提取传感数据的属性特征,进而估计缺失数据。文献4提出一种KNN算法,通过在特
6、征空间中寻找与缺失数据属于同一类的相邻K个样本,对其加权平均后估计并重建缺收稿日期:2023-04-06基金项目:陕西省地方标准项目(SDBXM 67-2020)交通运输物联网基本架构和技术要求;国家重点研发计划课题,高速公路车路协同系统架构与测试关键技术(No.2019YFB1600100)作者简介:梁庆(1981),男,湖南常德人,副高级工程师,本科,从事土木工程相关研究;付青坤(1998),男,山西吕梁人,研究生在读,从事交通物联网相关研究。E-mail:http:/Tel:+86-551-65690963 65690964ISSN 1009-3044Computer Knowledge
7、 and Technology 电脑知识与技术Vol.19,No.18,June 20234DOI:10.14004/ki.ckt.2023.0849本期推荐本栏目责任编辑:闻翔军Computer Knowledge and Technology电脑知识与技术第19卷第18期(2023年6月)失数据。文献5将逻辑回归模型与多重插补算法相结合,但该方法仅适用于缺失率较低的情况。文献6则提出一种基于压缩感知的低秩数据重建算法,利用传感设备存在的空间相关性和数据的低秩特征,重建缺失数据,然而其低秩特征并不适合多类型混合接入的交通物联网采集系统。随着以机器学习为代表的人工智能算法的兴起,通过强大的计算
8、机算力,在交通大数据中提取非线性的时空属性特征,搭建多粒度的数据格式以及数学描述方法,重建缺失数据,已成为研究热点。文献7利用相邻传感节点的小波系数相关性,通过逆小波变换和时频回归模型来重建缺失数据,该方法精度高,但实现复杂度偏高。文献8利用逆向传播(Back Propagation,BP)神经网络对单一的交通流量进行预测,但并不适用于具有非结构化特征的交通物联网数据。在公路交通领域,机电设备的类型适中,空间部署呈线性分布,具有明显的空间相关特性,且感知对象聚焦于交通流、交通事件、气象等固定类型,但数据具有一定“定时漂移”特征,即“此时此处”的数据和“彼时彼处”的数据更具相关性。因此,本文通过
9、分析高速公路交通感知数据的特性,提出一种基于时空相关性的线性插值神经网络(LIN_BP)数据恢复算法,将时域和空域特征相结合来恢复缺失数据。1 基于时域平稳性的线性插值预处理目前,在公路交通领域中,在靠近传感器的感知接入层,仍然有较多非智能感知设备,例如输出电流信号的液位计,电压信号的压力传感器,这些设备有些部署无法进行有线传输的移动终端,有些是后装的感知设备,不具备有线传输条件,无奈采用无线传输方式。一旦数据接入路侧设备后,就会采用更加可靠的光纤有线传输。因此,本文重点针对因无线传输导致的数据缺失。由于无线传输环境的开放性和时变性,数据传输过程中经常会受到各种干扰和噪声的影响,例如车辆马达产
10、生的宽频干扰脉冲和毛刺噪声,这些干扰会导致信号传输出现连续的误码,而常用的卷积码加交织的信道编码技术,仅对零星的非连续误码有效,因此,有必要对数据进行预处理,将连续的缺失数据或异常数据位变为零星的单个孤立缺失数据位。对于多数输出模拟信号的传感器,在连续时间内采集到的非电量数值非常相近甚至相同。因此,可利用感知数据的时间相关性,构建线性函数来粗略估算缺失数据。该方法优势在于复杂度低,适合对时延敏感的实时性业务。线性插值的基本原理是:假设ti时刻的数据xi缺失,在其附近的tp和tq时刻的传感器数值为xp和xq,经过线性插值后的估计值为x?i=xp+xq-xptq-tp(ti-tp)(1)式(1)的
11、适用条件是仅有一个缺失数据,在多个缺失数据的场景中,就需要建立一个插值窗口,窗口尺寸为M,选取缺失数据ti时刻前后共M个时间点的数据 组 成 一 个 时 间 序 列 xi-M2,xi-m,xi,xi+m,xi+M2,其中xi是待求的缺失数值。将这些观测值从两端向中央,对称两两组合,形成M2对数据集 xi-M2,xi+M2 xi-m,xi+m xi-1,xi+1等,根据式(2)可得M2个插值组成的向量。x?i,m=xi+m+xi-m2(2)其中x?i,m是根据 xi-m,xi+m得到的插值,但由于该窗口内缺失数据不止一个,故实际得到的数据集小于M2对,此时,可根据“少数服从多数”的原则,设定初值
12、为0的Flag标志位,从最外侧的x?i,M2开始,和x?i,M2-1进行比较,若增加,Flag+1,反之,Flag-1,直到完成x?i,2和x?i,1的比较。最后,若Flag 0,x?i=arg maxm M2(x?i,m),反之,x?i=arg minm M2(x?i,m)。在上述算法中,Flag 0表示在本窗口内,数据变化的宏观规律近似为单调凸向上,反之,为单调凸向下。插值窗口尺寸M的选择至关重要,若取值太小,缺失数据点占比过高,容易受到周围噪声和毛刺的影响,影响插值的精度。若取值太大,计算复杂度升高,导致产生较大的处理时延。一般的经验原则是,在插值窗口内,缺失数据点占比不超10%,且与待
13、重建信号的中心频率成反比,频率越高,说明数据变化越快,时域相干窗口应越小。通过选择合适的窗口大小,对多个缺失数据进行预处理后,得到初步数据重建结果。在上述方法中,只是针对一个传感器在时域的时间相关性,同时由于选择窗口尺寸K时的两难顾虑,实际效果并不理想。因此,还应兼顾传感器在空间位置的相关性,进行时空二维联合处理。2 基于时空相关性的交通感知数据分析在交通物联网中,对同一物理量的检测通常采用多点布设传感器的方式,例如在一段公路上多个门架设备对车速,车流量的连续检测。这些传感器在同一时刻对各自负责的区域进行信号采集,由于部署在公路沿线的传感器位置存在空间相关性,数据也会呈现一定的相关性。若某个传
14、感器出现故障或受到强干扰,导致采集数据缺失,可通过相同时间不同点位的5本栏目责任编辑:闻翔军本期推荐Computer Knowledge and Technology电脑知识与技术第19卷第18期(2023年6月)其他传感数据来估计缺失值。但这种相关性由于受到路面质量、交通流、交通信号控制等多方面的影响,交通流特征和环境参数并不是线性变化,很难用简单的线性解析数学模型来刻画,因此,需引入非线性的预测和分析手段。BP神经网络是一种智能算法,通过相当数量的训练找出模式与类别之间的内在联系,以隐性方式学习和存储输入-输出模式之间的非线性映射关系,因此,本文综合利用感知数据在时间和空间的相关性,建立基
15、于BP神经网络的数据重建模型,最后得到缺失数据的估计值。这里的时空相关性表现为两个方面:1)时域相关性。同一传感器在相邻时刻(相干时间内)采集到的数据之间存在的时间相关性,超出相干时间,数据之间的关联性明显下降。2)空域相关性。相邻传感器(相干距离内)在同一时刻采集到的数据之间存在的空间相关性,超出相干距离规定的空间范围,数据之间的关联性明显下降。图1为高速公路微波检测器的区间车流量的时空检测数据。横坐标表示采样时刻,也就是以该时刻为终点,过去一段时间内统计得到的车流量。纵坐标是检测点位,对应不同的空间位置,不同的几何外形表示不同的ABCDE传感器。观察矩阵图中数据发现,A检测点在时刻1的数据
16、(93),与B点在时刻2的数据(94)相关度更高。也就是说,沿对角线上的数据关联程度明显高于水平线和垂直线上的关联度。原因在于,不同传感器的部署位置不同,检测数据具有一定“定时漂移”特征,即“此时此处”的数据和“彼时彼处”的数据更相关,类似“绿波带”的交通流“流动”特性。时刻1DCBA检测点位80898396928685879593891029098969010712897948710413015923456E9384100125161156图1 时空二维车流量数据矩阵图2是同一路段内相邻5个检测点的车流量变化曲线,图中每一条折线对应一个检测点。这也是从另一个角度描述数据的时空关联性。对比图1和图2,图1中对角线的斜率,图2中两条折线的平移间隔,都反映了该路段的平均车速。图2 相邻检测点车流量变化曲线图3是检测点车流量随时域统计窗口变化的曲线。可以看出,若统计窗口较小,此时段内通过的车流量不稳定,随机性更强,两个检测点检测到的车流量数据相差较大,但随着窗口的增大,数据趋于稳定,两个检测点的车流量数据差距越来越小,逐渐趋于相等。例如,在一天的统计窗口内,若两个检测点之间没有进出闸道,那么