1、第 卷 第 期 年 月公 路 交 通 科 技 .收稿日期:基金项目:国家自然科学基金项目();山东省交通运输厅科技计划项目();陕西省重点研发计划项目()作者简介:吕路(),男,陕西咸阳人,博士研究生(.):.高速公路交通事故持续时间计算方法研究吕 路,李 杰,郭忠印,阎 莹,高 超(.同济大学 道路与交通工程教育部重点实验室,上海;.山东高速信息集团有限公司,山东 济南;.长安大学 运输工程学院,陕西 西安;.陕西汇德通市政工程有限公司,陕西 西安)摘要:交通事故持续时间是衡量交通事故对交通影响程度的一项重要指标,交通事故持续时间计算对制定事故下的交通分流管控方案和降低事故产生的不利影响具有
2、重要作用。统计了贵州省高速公路不同交通事件频数及事件持续时间的分布。由高速公路交通事故数据集、交通流和气象观测资料、高速公路设计文件,建立了交通事故持续时间初始变量集。通过极限梯度提升树进行了特征变量选择和事故持续时间计算模型训练,并进行了特征变量敏感性分析。采用贵州省不同时期的交通事故数据进行了模型时间稳定性检验,采用贵州省和山东省相同时期的交通事故数据进行了模型空间稳定性检验。对所建模型在实际交通环境中的应用方法进行了讨论。结果表明:交通事故是最常发生的一类交通事件,两车碰撞类事故较单方事故持续时间长;同回归模型相比,优化后的集成学习算法可提高交通事故持续时间计算结果的准确率;由于不同时期
3、、不同地区交通事故持续时间影响因素可能存在差异,模型时空稳定性分析结果表明,所建模型具有时间稳定性,但不具备空间稳定性;事故持续时间的风险函数表明,最常发生的一类事故持续时间为 ,根据其特征变量取值,结合变量敏感性分析结果,交管部门可根据事故特征变量,快速进行事故持续时间计算。关键词:交通安全;交通事故;事故持续时间;计算方法;极限梯度提升树中图分类号:.文献标识码:文章编号:(),(.,;.,.,;.,;.,.,):.,.,.,.公路交通科技第 卷 .(),;(),;(),;(),.:;引言交通事故是指车辆在道路上因过错或者意外造成人身伤亡或者财产损失的事件。交通事故持续时间计算结果是划分事
4、故等级,制定事故下的交通诱导、分流管控方案的重要依据。目前对交通事故持续时间的研究主要集中在事故影响因素分析、事故持续时间计算方法、降低交通事故损失等方面,然而现有研究主要针对城市道路交通事故,对高速公路交通事故持续时间计算方法的研究不足。不同于城市道路,高速公路交通感知、管控设施较少,交通流密度低、流速大,事故形态相对单一,由此导致城市道路交通事故与高速公路交通事故持续时间的影响因素存在差异,城市道路交通事故持续时间相关研究成果不适用于高速公路交通事故管理。除上述原因外,目前交通事故持续时间计算方法还存在计算复杂、模型稳定性差等问题。根据交通事故发生和处理过程,通常将交通事故持续时间划分为事
5、件检测、事件响应、事件清除 个阶段,其大小由事故类型和当地交管部门的应急服务水平决定。在建立交通事故持续时间计算模型时,将交通事故持续时间影响因素划分为交通事故特征、交通环境特征、交通状况特征以及道路特征 个部分,各个特征又包含不同变量。重要性较大的变量组合能够显著提高模型计算精度。随机森林和随机生存森林、贝叶斯网络、参数加速失效模型等方法均可用于特征变量选择。交通事故持续时间计算方法的适用性决定了模型计算结果的准确性。按照统计方法,交通事故持续时间计算模型可分为概率模型和非概率模型。决策树、逻辑加速时间度量模型、离散选择模型是概率模型。线性回归模型、时间序列模型以及神经网络是非概率模型。模糊
6、 回归模型既可看作是概率模型,又可看作是非概率模型。受事故类型和交通环境差异影响,交通事故持续时间计算结果为一定误差范围内的估计值,对事故持续时间概率计算模型的应用研究越来越多。本研究首先对贵州省高速公路交通事件持续时间分布进行了统计;其次,根据高速公路交通事故档案信息建立事故持续时间初始变量集,基于 方法对事故持续时间特征变量进行选择,建立了高速公路交通事故持续时间计算模型,并对各特征变量的敏感性进行了分析;最后,对模型性能和稳定性进行检验,建立了交通事故持续时间快速计算方法。数据描述统计贵州省路网中心 年 月 日至 年 月 日记录的 条高速公路交通事件信息。每条数据包含事件初报和终报时间、
7、事件地点、事件概况、事件类型、伤亡情况等要素。为了提高模型计算精度,对交通事件信息进行预处理。从描述性的事件概况中提取事件发生时间、事件发生位置以及车辆类型,消除事件发生和清除时间不明、事件类型等关键信息缺失的异常数据,删除发生在高速公路服务区、收费站站前广场等路外数据。为了避免异常值对计算结果产生影响,删除事件持续时间大于 的数据,最终得到 条有效数据。以 为间隔,绘制事件持续时间频数分布直方图,如图 所示。图 显示,随着事件持续时间的增加,事件频数迅速下降。事件持续时间主要集中在 以内,其中频数最大值出现在 以内。按照事件类型和事件发生的主要原因,将交通事件划分为道路交通事故、地质灾害、气
8、象灾害、交通设施安全事件。处理后的各事件信息均包括事件发生时间、第 期吕 路,等:高速公路交通事故持续时间计算方法研究图 事件持续时间频数分布直方图.事件清除时间、事件类别、事件类型、事件地点、伤亡情况、涉及车辆类型、事件发生位置、事件阻塞车道数等信息。不同事件类别持续时间分布特征统计结果,如表 所示。表 显示,道路交通事故是平均持续时间最短的一类事件,地质灾害事件和交通设施安全事件平均持续时间较长。除交通事故外,其他事件占交通事件总数的.,表明交通事故是最常发生的一类事件。以下主要对交通事故持续时间计算方法进行研究。表 事件持续时间分布统计.事件类别事件数量 起事件持续时间均值 事件持续时间
9、标准差 事件持续时间最小值 事件持续时间最大值 道路交通事故 地质灾害事件气象灾害事件交通设施安全事件 分析方法.初始变量集构建由处理后的贵州省高速公路交通事件数据筛选得到交通事故数据集,按照交通事故特征、环境特征、交通状况特征以及道路特征构建事故持续时间的初始变量集。事故特征构成要素有事故类型、事故发生时段、受伤人数、死亡人数、涉及车辆类型、事故发生位置、剩余车道数;环境特征要素有能见度、气温、雨量、路面湿滑程度;交通状况特征要素有分车道流量、车型构成比例;道路特征要素包括道路类型、道路几何特征。根据事件信息记录表,对各影响因素进行细分,建立交通事故持续时间初始变量集,其中环境特征和交通状况
10、特征数据来源于高速公路沿线气象观测站和交通调查系统,道路特征数据来源于公路工程设计文件,结果见表。表 交通事故持续时间初始变量集.影响因素分类序号事故影响因素变量组成交通事故特征事故类型单方事故,两车事故,多车事故事故发生时段黎明(),早晨(),中午(),下午(),午夜(),夜晚()受伤人数 人,死亡人数 人,事故发生位置互通立交区,其他涉及车辆类型危险货物运输车,营运客车,货车,小客车剩余车道数,环境特征能见度 事故 发生 前 的 平 均 能见度气温 事故发生前 内平均气温雨量 事故发生前 内累积降雨量湿滑程度事故发生前 道路平均湿滑程度交通状况特征服务水平 级及以上,级,级,级及以下车型比
11、例事故发生前 断面交通流中的客车与货车比例道路特征道路类型 隧道,桥梁,路堤,路堑道路几何特征(直线,平曲线),(平坡,上坡,下坡).基于 的交通事故持续时间计算方法极限梯度提升树()是梯度提升决策树()的一个变种,属于顺序化的集成学习构建方法。同 相比,最大的区别是 通过对目标函数中的结构损失函数做二阶泰勒展开,大大提高了模型的可扩展性、收敛速度和计算精度。基于 的交通事故持续时间计算方法,主要包括特征变量选择和模型构建与参数调优两个步骤。以处理后的初始交通事故数据构建样本库,随机抽取 的样本数据用于模型训练,另一半数据用于模型测试。算法流程为:()对原始事故信息进行预处理,构建初始变公路交
12、通科技第 卷量训练集;基于 进行特征变量重要程度排序及选择。通过计算各特征变量给分裂节点带来信息增益的加权平均值,得到每个特征变量的重要性得分。特征变量重要性分数越高,其在模型构建中的价值越大。在特征变量按重要程度降序排列的基础上,依次计算由 个最重要特征变量至所有特征变量构建模型时的计算结果准确率,选择模型计算准确率最大时的特征变量作为变量筛选结果。所得特征变量重要程度降序排列为:,表明事故特征对事故持续时间的影响最大。图 为模型计算准确率 随变量个数 的变化曲线,当变量个数由 减至 时,删除不重要变量能够减小冗余信息对算法带来的影响,模型计算准确率增加;当变量个数由 减至 时,随着重要特征
13、变量被删除,模型计算准确率下降;当变量个数为 时,曲线有最大值。因此,事故类型、剩余车道数、服务水平、死亡人数、受伤人数、涉及车辆类型、事故发生位置即为筛选得到的交通事故持续时间特征变量。图 模型计算准确率与变量个数之间的关系.()使用筛选得到的 个特征变量构建训练集来训练,通过粒子群算法()优化模型参数。在给定的包含 个样本和 个特征变量的数据集(,)(,)中,集成树模型通过 步得到模型的计算值,如式()所示。()()(),。()式中,()为第 个样本在第 次迭代时的计算结果;()为第 个样本的最终计算结果。每次迭代通过 步完成,其中,()为第 个样本在第 步迭代时的计算结果,()()(:,
14、)是回归树空间,为实数集。即依次计算第 步的计算值与实际值的残差,通过残差的梯度下降最终得到真实值。模型的目标函数如式()所示。(,)(),()式中,右半部分的第 项为损失函数,(,)为第 个样本计算值与实际值的残差;第 项为抑制模型复杂度的正则项;为第 步迭代时的计算模型。函数()在点 处的二阶泰勒展开式为()()()(),通过类比可得到 的损失函数,如式()所示。(,()()(,()()(),()式中,()对应损失函数(,();对应前 棵树的计算值();对应正在训练的第 棵树();为损失函数的一阶导数;为损失函数的二阶导数,且均是对()求导。通过枚举决策树每个叶节点中所有特征的可能分割方案
15、,计算分裂前后目标函数的收益,以收益最大的特征作为分裂特征,用该特征的最佳分裂点作为结点的分裂位置,生成回归树模型。使用平均绝对百分误差()评 估 模 型 计 算 准 确 率,值越小,模型计算准确率越高。采用 算法优化模型参数,训练得到的模型计算误差率随迭代次数的变化关系,如图 所示。当迭代次数为 时,模型计算误差率取得最小值.,此时模型参数达到最优。图 计算误差率曲线.第 期吕 路,等:高速公路交通事故持续时间计算方法研究.特征变量敏感性分析通过 算法,可得到事故持续时间特征变量的重要程度序列。对筛选得到的交通事故持续时间特征变量进行敏感性分析,计算 算法优化后的各变量系数的指数值,得到不同
16、特征变量对事故持续时间的影响程度,即当特征变量的取值改变 个单元时,事故持续时间变化的百分比,并使用指数系数进行表示,用于表征事故持续时间对特征变量的乘法效应估计。特征变量敏感性分析结果如表 所示。表 特征变量敏感性分析.特征变量编号特征变量系数标准差 统计量指标影响程度 事故类型:,.剩余车道数:,.服务水平:,.死亡人数:,.受伤人数:,.涉及车型:,.事发位置:,.常数项.样本量 注:表 中的特征变量与表 中的变量组成一致。表 显示,剩余车道数的增加、因涉及车型变化可能导致事故产生的人员伤亡和财产损失的减少,可降低交通事故持续时间,其余变量的变化将增加事故持续时间。死亡人数增加 人,引起的事故持续时间指数系数值为.,即事故持续时间将增加.。同时,剩余车道数的变化引起的事故持续时间指数系数值为.,即.,意味着剩余车道数每增加 条,事故持续时间将减少.。结果分析.模型性能比较统计交通事故持续时间计算模型在一定误差范围内的平均绝对百分误差()。划分,共 个误差区间,按照事故持续时间小于,将交通事故划分为不同等级。基于 的交通事故持续时间计算结果误差率,如表 所示。当 小于等于 时,可认