1、第 卷第 期重庆邮电大学学报(自然科学版)年 月 ():融合时序和空间特征的车辆异常轨迹检测方法收稿日期:修订日期:通讯作者:夏 英 基金项目:国家自然科学基金();重庆市高技术产业重大产业技术研发项目();重庆市教委重点合作项目():();();()夏 英,张安洁(重庆邮电大学 计算机科学与技术学院,重庆)摘 要:针对基于序列建模的车辆异常轨迹检测方法轨迹空间特征提取不够充分而降低了检测效果这一问题,提出融合时序和空间特征的车辆异常轨迹检测方法,充分提取轨迹的时间与空间特征以提升异常轨迹检测精度。采用融合自注意力机制的堆叠序列自编码器,从网格化后的映射轨迹中提取轨迹时序特征;引入全连接神经网
2、络,提取轨迹偏转量和行驶距离等空间特征;融合轨迹的时间和空间特征,进行异常轨迹检测以提升检测效果。实验表明,提出的方法在真实出租车数据集上的异常轨迹检测准确率优于,评分优于,与、和 方法相比,检测性能提升较为明显。关键词:异常轨迹检测;序列自编码器;自注意力机制;特征融合中图分类号:文献标志码:文章编号:(),(,):,:;引 言近年来,大量研究人员致力于研究如何处理轨迹数据并使其服务于智能交通、智慧城市等领域。基于度量的方法主要根据轨迹段之间的距离进行异常检测。文献提出基于 距离进行轨迹划分的异常轨迹检测框架。文献在聚类基础上建立基于离散状态的路径模型。文献结合有向 距离进行异常检测,考虑方
3、向差的同时降低计算复杂度。基于度量的方法主要考虑轨迹的距离特征,对轨迹的序列信息考虑不足。基于统计的方法主要依赖历史数据的支持。文献通过计算网格序列频度来检测异常轨迹。文献提出一种两阶段轨迹异常检测框架,解决寻找局部异常轨迹和绕行问题。文献在网格序列基础上提出新的 距离计算轨迹之间的相似度。这类方法未充分考虑到历史数据少、数据规模大等情形。基于 学 习 的 方 法 主 要 利 用 序 列 建 模。文献提出的 方案是经典的分类算法;文献基于循环神经网络,采用轨迹嵌入捕捉轨迹序列信息;文献基于行驶时间和距离的循环神经网络实现异常检测;文献结合循环神经网络和卷积神经网络检测异常轨迹。基于学习的方法目
4、前较为主流,但循环神经网络存在长距离依赖问题,无法长久记忆。对网格化轨迹进行序列建模仅提取轨迹时序特征,难以充分提取轨迹空间特征,如轨迹偏转角度、行驶距离等。为充分利用轨迹数据的时空特征,本文提出融合时序和空间特征的车辆异常轨迹检测方法(,)。该方法具有以下特点:在编码器部分引入自注意力机制(,),解决传统循环神经网络的长序列依赖问题,充分提取轨迹时序特征;提取轨迹偏转量和行驶距离,并使用全连接神经网络进行特征提取(,),以此挖掘轨迹中更多空间信息。相关基础 原始轨迹原始轨迹,是记录位置信息的时间序列,位置点 由(,)表示,其中(,)是位置经纬度,是对应的时间戳。和是原始轨迹的起点和终点。映射
5、轨迹根据原始轨迹经纬度的空间范围,将空间区域分割成相同大小的网格,建立网格与原始轨迹点的对应关系,将原始轨迹,映射为,。异常轨迹在出租车、物流等特定应用场景下,车辆移动轨迹会有预设的正常路径,通过这些路径的概率相对较高,异常轨迹产生的原因可能是主观上的(如绕路行为)或客观上的(如道路拥堵等)。行驶距离已知轨迹起点 和终点,和 的行驶距离 表示为 (,)()()式中,(,)表示相邻两点之间的空间距离。轨迹偏转角偏转角是相邻两个轨迹运动方向上的夹角。已知由、这 个点构成的夹角称为开放角,开放角的补角称为偏转角,偏转角与开放角如图 所示。偏转角越大表明运动发生偏转程度越大。和 的计算式为 ()()图
6、 轨迹偏转角与开放角 轨迹偏转量轨迹偏转量为轨迹偏转角度的和,计算公式为 ()()式中:表示第 个相邻两轨迹运动方向上的夹角,即轨迹偏转角;表示一条轨迹有 个偏转角。第 期 夏 英,等:融合时序和空间特征的车辆异常轨迹检测方法 方法设计 总体框架 总体框架分为轨迹预处理、轨迹特征提取和异常检测 个组成部分,如图 所示。轨迹预处理将原始轨迹转换为映射轨迹,同时提取轨迹偏转量和轨迹行驶距离;轨迹特征提取在编码器()每层引入,构建融合 的堆叠序列自编码器模型以提取轨迹偏转量和轨迹行驶距离等空间特征;异常检测融合轨迹偏转量、轨迹行驶距离和轨迹时序特征,输入到多层感知机(,)降维后输入 层计算轨迹的异常
7、概率,进而对轨迹进行异常检测。图 车辆异常轨迹检测总体框架 融合自注意力机制的堆叠序列自编码器模型构建 车辆轨迹数据相邻点有着上下文关系,本文引入自注意力机制结合堆叠的序列自编码器来自适应学习。图 为融合自注意力机制的堆叠序列自编码器示意图。图 为门控循环单元(,)结合自注意力机制示意图。图 融合自注意力机制的堆叠序列自编码器 堆叠序列自编码器为充分提取轨迹时序特征,采用 作为基础单元构建堆叠序列自编码器,其结构如图 所示。堆叠序列自编码器通过编解码过程提高特征提取能力。图 结合自注意力机制 图 序列自编码器网络结构 假设()是编码函数,()是解码函数,对每个时间步骤、输入,轨迹序列编 重 庆
8、 邮 电 大 学 学 报(自然科学版)第 卷码表示为(,)()获取编码后得到语义向量,并由解码器解码得 (,)()(,)()()式中:语义向量 作为解码器的初始隐藏状态,并不作用于之后的时刻;()是从编码器隐藏层中总结信息并为解码器生成上下文向量的函数。单层序列自编码器虽能学习轨迹的上下文关系,但对于轨迹数据更为抽象的内在特征的提取较欠缺,为进一步提高特征提取能力,本文将图 和图 所示结构扩展为四层堆叠序列自编码器,原始数据作为最底层的输入,每一层的输入都是上一层的输出,使用 机制避免过拟合问题。在四层堆叠序列自编码器中,使用局部无监督准则对每一层进行预训练操作,优化堆叠序列自编码器以提高后续
9、分类性能,预训练目标函数为 ()()()式中:为批量样本个数;为输入数据;为解码器的拟合分布。利用上述预训练好的编码器对轨迹数据进行特征提取,编码器最后一层输出则可作为最终的时序特征。自注意力机制自注意力机制的核心就是在不依靠外来信息的情况下根据输入数据自适应选择最相关的特征。在堆叠序列自编码器的每一层引入自注意力机制,上一层编码器的输出作为自注意力机制的输入,得到的特征向量作为下一层编码器的输入,编码器的输出状态 为 (,)()()式中,表示 时刻编码状态。注意力向量 的计算公式为 ()()()式中:向量 的每一个元素代表一个概率;以及 是可学习参数,是一个超参数。将 的每个元素与 中对应的
10、元素相乘后相加得到最终的编码状态 为 ()将编码状态 与输出状态 对应相加以进行特征融合,得到下一层的输入,最终堆叠序列自编码器中编码公式可更新为(,)()结合偏转量和行驶距离的特征模型构建在具有相同起点与终点的轨迹中,正常行驶的车辆其轨迹偏转量及行驶距离等特征往往在一定范围内具有一定的相似性。图 为行驶距离实例,图 为偏转角度实例。当发生异常行为时,轨迹行驶距离及偏转角度通常与正常轨迹具有较大差异。正常轨迹的偏转量远低于异常轨迹的偏转量,轨迹偏转量也是异常轨迹检测的一个重要依据。因此,为进一步提高车辆异常轨迹的检测效果,提取轨迹偏转量和轨迹行驶距离特征作为参考指标。图 行驶距离实例 图 偏转
11、角度实例 轨迹行驶距离为轨迹中相邻两点的空间距离之和,方法能够有效减少相邻两点之间的短距离求解误差,其满足的关系为(,)|()()()()()()式中:为地球半径;和 分别表示 和的纬度;和 分别表示 和 的经度。全连接神经网络作为特征提取网络,包含输入第 期 夏 英,等:融合时序和空间特征的车辆异常轨迹检测方法层、隐藏层和输出层。将轨迹偏转量和行驶距离作为输入数据分别输入到两个全连接神经网络中,通过隐藏层进行训练得到最终的轨迹偏转量和行驶距离等特征。假设输入特征向量为,输出为,则计算公式为 ()()()()()()()式中:为未激活的输出;和 为可学习参数;()为非线性的激活函数。异常检测经
12、过特征提取阶段,原始轨迹被表示为一个融合后的特征序列。异常轨迹标号为(正类),正常轨迹标号为(负类)。为有效检测异常,利用多层感知机实现特征降维,降维公式为()()()式中:为输出向量;和 是可学习参数。将降维后的特征向量 送入 分类器,对于每个轨迹,分类器将输出异常概率。网络构造完成之后,对于训练集,通过最小化交叉熵损失来优化模型,目标函数为 ()()()()式中:表示每一条轨迹在模型中的预测样本标签;表示真实样本标签。模型优化完成后利用模型对测试样本进行预测,从而进行异常检测。实验与分析 数据集实验采用葡萄牙波尔图市的出租车轨迹数据集,包含 辆出租车在 年 月到 年 月的轨迹数据,每辆出租
13、车每隔 报告其位置。为与传统的异常轨迹检测方法进行对比,在给定源目的地对()之间进行对比试验,抽取 对含有充分轨迹的。本文采用文献中的方法,每对 包含 左右的异常轨迹,具体数据描述如表 所示。实验按 划分训练集、验证集与测试集,对原始轨迹进行网格划分,网格大小为 ,然后利用唯一标识标记网格,建立网格与原始轨迹点的一一对应关系。表 的轨迹数据信息 数据集轨迹数量异常轨迹(占比)训练数据验证数据测试数据平均轨迹点数量()()()()()对比方法及参数设置为验证所提方法的有效性,将本文方法与、等方法进行比较。实验在 位 操作系统下的 上进行,使用 框架和 完成神经网络的搭建,堆叠序列自编码器的层数设
14、置为,词向量降维之后的向量维度为,机制比例为,神经网络模型优化器为。评价指标实验选用准确率(,)及 评分()作为实验定量评估指标,其定义式为 ()()()()()()式中:为精确率,表示正确预测为正的占全部预测为正的比例;为召回率,表示正确预测为正的占全部实际为正的比例;为对 与 的综合评估。重 庆 邮 电 大 学 学 报(自然科学版)第 卷 实验结果分析实验均在同一实验环境下进行,且均选用最优结果。方法与、和 种异常轨迹检测方法的异常检测效果如表 所示。从表 可知,本文提出的 方法无论是在准确率还是 评分上均有所提升。这表明在捕捉轨迹序列信息的同时,结合轨迹的偏转量和行驶距离信息能够有效提高
15、异常轨迹检测质量。方法表现较差的原因是该方法只考虑到轨迹的形状,对于轨迹的序列信息考虑不全;基于统计的 方法优于 方法,原因是使用 距离度量的 方法对于异常阈值的选择具有较高要求,在不同数据集上该方法的共通性较弱;同为深度学习的 方法优于 方法,原因是在同样的参数设置下,捕获时序特征的能力优于长短时记忆单元。表 异常检测结果 方法 为验证不同模块对车辆异常轨迹检测的效果,使用 表示仅使用融合自注意力机制的堆叠序列自编码器进行异常轨迹检测的方法,在 的基础上融合了轨迹偏转量和轨迹行驶距离等空间特征。在参数设置相同的条件下,表示仅使用门控 的方法。、种方法的消融实验结果如表 所示。表 消融实验结果
16、 方法 使用柱形图直观分析、种方法的准确率和 评分,结果如图图 所示。与 比较,准确率和 评分均有一定程度提升,、检测效果提升更为明显。这是由于、比、数据量更大,使得注意力向量和自编码器得到了更加充分的训练。在融合轨迹偏转量和行驶距离之后,与 方法相比,又有不同程度的提升,尤其在、上提升效果明显,这表明在数据较少时,结合轨迹偏转量和行驶距离信息可有效提高模型性能。图 异常检测准确率 第 期 夏 英,等:融合时序和空间特征的车辆异常轨迹检测方法图 异常检测 评分 为研究轨迹数据中异常轨迹比例较低时算法的有效性,对于实验中选取的 个给定异常轨迹标签的 对,分别设置数据集的异常比例从、到 变化,即给定一个数据集,其中正常轨迹数据量不变,异常轨迹的比例按、和 抽样,然后重新组合训练集、验证集和测试集。为验证不同情况下的性能,实验采用提出的 方法,并使用相同参数,不同异常比例检测结果如表 所示。当异常轨迹的比例从低到高变化时,算法模型的性能也在稳步提升,并且当异常轨迹的比例为 时,与表 相比,除 和 的准确率和 评分受异常比例影响较大外,其余数据集的检测性能均优于对比算法。这表明即使面对异常轨迹