1、第 卷 第 期 年 月东 华 理 工 大 学 学 报(自 然 科 学 版)().收稿日期:基金项目:自然资源部海洋环境探测技术与应用重点实验室开放基金项目();国 家 自 然 科 学 基 金 项 目();江西省教育厅科学技术科技项目();东华理工大学放射性地质与勘探技术国防重点学科实验室开放基金项目()作者简介:吕开云(),男,博士,副教授,主要从事空间数据处理研究工作。:基于长短期记忆神经网络的城市交通速度预测吕开云,邱万锦,龚循强,支君豪,汪宏宇(东华理工大学 测绘工程学院,江西 南昌;自然资源部海洋环境探测技术与应用重点实验室,广东 广州;东华理工大学 自然资源部环鄱阳湖区域矿山环境监测
2、与治理重点实验室,江西 南昌)摘 要:交通速度预测在智能交通系统中起着重要的作用,准确、快速的交通速度预测有利于及时掌握城市道路交通状况,能够有效实行交通诱导。针对交通速度具有极强的周期性,在工作日和非工作日之间存在较大差异,导致预测精度不高的问题,分别选取公开的工作日和非工作日交通速度数据,构建基于长短期记忆神经网络的城市交通速度预测模型。实验验证采用广州市 条路段的交通数据,结果表明,区分工作日和非工作日的平均绝对百分比误差、平均绝对误差和均方根误差的平均值比不区分均要小,说明区分工作日和非工作日可以有效地提高交通速度的预测精度。关键词:智能交通;交通速度预测;长短期记忆神经网络;周期性中
3、图分类号:文献标志码:文章编号:()吕开云,邱万锦,龚循强,等,基于长短期记忆神经网络的城市交通速度预测 东华理工大学学报(自然科学版),():,(),():交通速度预测是智能交通系统()中的重要组成部分,在城市交通控制、交通诱导中扮演着重要的角色,受到了广泛关注(,)。如何进行有效、及时和高精度的交通速度预测是目前急需解决的关键问题。城市交通速度预测就是根据历史交通速度数据,采用某种预测模型或算法对其进行训练或分析,从而预测未来一段时间的交通速度信息(,;汪宏宇等,)。利用预测结果不仅可以为出行者提供合理规划来避开拥堵路段,还可以为交通管理部门提供有效技术支持,缓解交通拥堵的压力,提高道路资
4、源的利用率,减少因交通拥堵造成的经济损失和城市空气污染。最近十几年来,国内外学者针对交通速度预测,提出了各种各样的方法。目前,这些方法主要分为两类:一类为经典统计学模型;另一类为机器学习模型。经典统计学模型主要有自回归差分移动平均模型(马超群等,;李明等,)、卡尔曼滤波(周晓等,)等。这些模型原理较简单、计算效率高,但对于数据量大、变化复杂的交通速度数据,这些模型的预测精度较差。机器学习模型主要分为浅层的机器学习模型和深度学习神经网络模型。浅层的机器学习模型主要有 最邻近算法(,)、支持向量机(吴晋武等,)、支持向量回归(王博文等,)和随机森林算法(徐秀娟等,)等。这些方法对于交通速度预测具有
5、一定的泛化能力,但对于大规模交通数据的特征提取仍显不足。由于深度学习模型对大数据具有较强的学习和处理能力,在交通预测中得到了广泛关注。目前,许多学者将深度学习神经网络用于交通速度预测(熊振华等,)。胡鑫泽等()考虑了人为、车辆、道路、环境等对城市交通拥堵的影响,构建了基于反向传播神经网络的模型来预测城市交通拥堵情况。等()提出了一种基于人工神经网络的城市道路交通速度预测方法。王祥雪等()采用了长短期记忆()神经网络进行交通流速度预测,结果表明,其在处理时序数据方面有着显著的优势,降低了样本的依赖性,并提升了运算效率。等()提出了一种嵌入图卷积长短期记忆()神经网络,用于城市道路交通速度预测,可
6、同时考虑交通路网的时空相关性。等()研究了异常交通状况、交通事故等因素对交通速度预测的影响,并提出了一种模糊优化长短期记忆()神经网络。等()针对非复发性交通拥堵,传统机器学习方法预测准确率低的情况,采用三态算法构建 模型来预测交通速度,相比支持向量回归等传统方法鲁棒性更好。阎嘉琳等()采用 神经网络进行交通速度预测,并考虑了城市道路之间的时空关联性,从而提高了预测的精度。然而,上述研究都未考虑工作日和非工作日之间交通状态的差异对交通预测结果的影响。本次采用广州市 条路段的交通数据进行实验验证,为充分考虑这种差异的影响,按工作日和非工作日两种情况对交通速度数据进行特征编码,并采用 神经网络对交
7、通速度进行预测,将预测的结果与不区分工作日和非工作日情况下的结果进行对比,从而说明本方法的有效性。基于 神经网络的城市交通速度预测模型 交通速度预测基本概念交通预测是通过对历史交通数据进行分析,从而得到未来一段时间的交通状态信息,如流量、速度和密度等(王润泽等,)。笔者将交通速度作为预测对象,根据给定的 个时刻的历史交通速度,预测未来 个时刻的交通速度,如式()所示。,(,)()式中,(),为 时刻 个路段的交通速度观测值向量,(),为 时刻个路段的交通速度预测值向量;向量中的每一个值对应每一个路段在同一个时间的交通速度值,()为预测模型。交通速度预测的一般步骤为:()对原始交通数据进行预处理
8、。将异常、重复的数据删除,缺失的数据进行填补,并对数据进行标准化处理。()对预处理后的数据进行分析,根据数据的特性选取一定的算法或模型。利用数据对模型进行训练和测试,从而得到最优的预测模型。()利用预测模型对未来一段时间的交通速度状态进行预测。长短期记忆神经网络交通速度数据是一种时间序列数据,存在较强的时间相关性,而 神经网络对处理时间序列数据有着独特的优势。因此,笔者采用 神经网络构建模型,用于交通速度的时间相关性特征提取和预测。神经网络是一种特殊的循环神经网络()。相比一般的,神经网络加入了一个记忆模块和门限机制,缓解了长时序数据在训练过程中会出现的梯度消失或梯度爆炸问题(,;,)。一个
9、单元的网络结构如图 所示。图 一个 单元网络结构 一个 单元包含了遗忘门、输入门、输出门以及一个记忆单元。具体如式()所示。(,)(,)(,)?(,),()|()式中,、和?分别为 时刻的遗忘门、输入门、输出门和记忆单元,为 激活函数,为双曲正切激活函数,为 时刻的输入,、分别为 、时刻的隐藏层状态,、分别为 、时刻的单元状态,、为权重矩阵,、为偏置矩阵。预测模型构建利用城市交通速度的时间依赖性,考虑短时间相关性和周期性,笔者基于 神经网络建立城市交通速度预测模型,实现单个路段未来一段时间内的交通速度预测任务。模型主要分为三个部分:交通速度数据输入模块、时间特征提取模块及交通东 华 理 工 大
10、 学 学 报(自 然 科 学 版)年速度预测模块。()输入模块。所有路段的交通速度历史数据为,。由于交通速度数据具有一定的周期性,工作日(周一至周五)与非工作日(周六、周日)之间的差异显著,因而考虑将工作日和非工作日的交通速度数据区分开。另外,考虑法定节假日和调休情况,将法定节假日视为非工作日,调休日视为工作日。将工作日和非工作日交通速度历史数据分别作为模型输入值。()时间特征提取模块。该模块用于接收来自上一模块的数据,并捕捉其时间相关性特征。由于 神经网络对较长时序数据有着良好的处理能力,该模块由若干个 单元组成,利用 神经网络能够更好地捕获交通速度数据之间的时间相关性。()预测模块。该模块
11、利用上一模块得到的时间相关性特征,预测所有路段未来一段时间的交通速度,。实验数据及参数设置为了验证基于 神经网络的城市交通速度预测模型的有效性,采用公开的城市交通速度数据,将工作日和非工作日分开进行预测,并与不区分情况下的结果进行对比。实验数据实验选取数据集是广州市 条路段(主要是主干路和快速路)、时间跨度为两个月(年 月 日至 月 日)的实际观测交通速度数据,一共 条数据,时间间隔为 分钟。数据来源:。其中路段 的交通速度随时间变化情况如图 所示。图 路段 的交通速度 将数据集按照 划分为训练集和测试集。考虑工作日和非工作日交通状态的差异性,对工作日和非工作日分别赋予 和 作为路段的特征输入
12、。模型采用的时间窗口宽度为 分钟,步长为 步,每次利用前两个小时的历史数据作为输入值,来预测未来 分钟的交通速度。采用的数据集中,交通速度变化幅度较大,比如在:期间通常交通速度较大,而在:期间交通速度往往很小。为了减小数据跨度大对模型训练的影响,采用最小最大()标准化法将交通速度数据规范到,之间。模型参数设置本实验基于 框架实现,并综合考虑精度和效率,根据经验和重复试验调整,将主要参数设置如下:学习率设置为 ,批量规模 设置为,训练次数 设置为。使用自适应矩估计()作为优化器。模型训练过程中的损失函数采用均方误差(),其计算如式()所示。()()式中,为预测区间范围,为实际交通速度值,为预测交
13、通速度值。第 期吕开云等:基于长短期记忆神经网络的城市交通速度预测 评价指标为验证本模型的预测性能,选用了 个评价指标:平均绝对误差(),直接用于反映预测值与实际值之间的误差情况;均方根误差(),易受偏差较大的预测值影响,可以用于衡量模型的稳定性;平均绝对百分比误差(),考虑误差与实际值之间的比例,可以比较不同尺度下的预测结果。评价指标计算如式()至式()所示。()()()()实验结果与分析考虑到交通速度预测问题的实时性需求,将 神经网络预测模型层数设置为 层,包括输入层、个 层、层和 层。将经处理的历史交通速度数据作为预测网络的输入值,将预测路段下一个时刻的交通速度作为输出值,最终得到基于
14、神经网络的城市交通速度预测结果。预测日为工作日和非工作日的结果分别如图、图 所示。图 预测日为工作日时路段 交通速度的预测结果 图 是预测 年 月 日(工作日)广州市数据集中的路段,交通速度值与其实际值的拟合程度。图 是 年 月 日(非工作日)广州市数据集中的路段,预测的交通速度值与其实际值的拟合程度。从图 中可以看到,交通速度变化趋势明显下降的时间区间主要为:、:以及:,可见路段 在工作日时,早高峰大致为:,晚高峰大致图 预测日为非工作日时路段 交通速度的预测结果 为:。从图 中可以看到,交通速度变化趋势明显下降的时间区间主要为:和:,可见路段 在非工作日时,并没有像工作日一样在:期间出现早
15、高峰的现象,而主要是在:出现午高峰,:出现晚高峰。根据上述分析,进一步选取早高峰:和晚高峰:的数据进行对比实验。年 月 日至 月 日的早高峰、晚高峰预测结果分别如图、图 所示。图 和 分别为路段 早高峰:和晚高峰:的交通速度预测值与实际值的拟合程度,从拟合曲线可以看出,在区分工作日和非工作日情况下得到的交通速度预测值与实际值更接近。图 路段 早高峰(:)交通速度的预测结果 (:)另外,从图 至图 中可以直观地看出,无论交通速度序列是在波峰还是在波谷,交通速度预测值与实际值的吻合度均较高,表明本预测模型应用于城市实际交通速度预测具有可行性。采用、和 评价指标对预测结果精度进行评价,结果如图、图
16、所示。东 华 理 工 大 学 学 报(自 然 科 学 版)年图 路段 晚高峰(:)交通速度的预测结果 (:)根据图 的评价结果可以看出,当预测日为工作日时,个路段区分的预测结果相比不区分的预测结果的精度都要高。根据图 的评价结果可以看出,当预测日为非工作日时,个路段中路段、路段 和路段 至 区分的预测结果相比不区分的预测结果和真实值更接近,而其中路段 和路段 选取非工作日预测的结果相比不区分情况下预测的结果精度略差。造成少数预测效果不佳的主要原因可能有两点:一是选取的数据中非工作日的训练样本较少。因为训练样本过少导致预测模型训练的效果不稳定,从而影响预测的精度。二是存在工作日和非工作日之间差异性不大的情况。选取的数据中,路段 和路段 在 月 日至 月 日中,非工作日的交通速度与工作日的交通速度较为相似,差异性较小。预测日为工作日和非工作日 个路段区分和不区分的评价指标平均值如表 和表 所示。图 预测日为工作日的评价结果 图 预测日为非工作日的评价结果 从表 和 的总体评价结果可以看出,当预测日为工作日时,区分工作日和非工作日情况下 条路段预测值、和 的平均值比不区分工作日和非工作日情况