1、第 卷第期 年月 ,气象科技 基于机器学习技术的逐时雾事故判别气象模型宋建洋田华,郜婧婧王志,李蔼恂陈运(中国气象局公共气象服务中心,北京 ;中国气象局交通气象重点开放实验室,南京 )摘要为进一步提高雾天交通安全气象保障精细化能力,以江苏、安徽高速公路雾事故多发路段为例,利用 年事故信息与气象资料,建立一种基于变量选择和特征提取的逐时雾事故判别支持向量机模型。模型参照递归特征消除思路选择事故发生时间、地理位置、气象环境等重要变量,使用主成分分析提取重要变量的主要特征,并以径向基为核函数、以网络搜索确定最优参数。结果表明:结合重要变量选择和主成分分析的支持向量机混合模型能够成功识别出训练集 和测
2、试集 的事故样本,分数均为 ;判别效果优于支持向量机单独算法,以及仅基于重要变量选择或主成分分析的支持向量机算法;个典型实例分析也说明该模型对于阶段性或持续性大雾天气下的交通事故发生有一定判识与警示意义。关键词高速公路;雾天交通事故判别;逐小时概率;变量选择;主成分分析;支持向量机中图分类号:,:文献标识码:气象科技国家重点研发计划项目(、)和中国气象局公共气象服务中心创新基金项目()资助作者简介:宋建洋,女,年生,硕士,高级工程师,从事公路交通气象预报技术研究与服务工作,:收稿日期:年月 日;定稿日期:年月 日通信作者,:引言近年来,随着我国高速公路的蓬勃发展,交通事故率明显上升,给社会、经
3、济带来了不可估量的影响。据公安部交通管理局统计,高速公路每百公里事故发生率是普通公路的倍多,其中近 是在恶劣天气中发生的,并以雾天影响最大,在多发地区高速公路路段的死亡率占比可达 。因此,雾天高速公路交通事故(以下简称“雾事故”)不良环境判别成为交通安全管理部门和公众关注的热点问题,也是气象部门保障服务的重要内容。实时事故风险防控技术有助于降低或避免公路交通气象灾害损失。受限于公路有限的数据条件,我国围绕恶劣天气事故风险方面的研究成果较少,主要有两类模型构建方法。一类是基于交通流参数的事件自动检测模型,多应用随机森林、支持向量机等机器学习算法,预测精度较高,但基本停留在短时间的仿真测试研究中,
4、很难在实际高速公路上得以验证和应用 ;如张存保等在 仿真软件中模拟雾天环境下高速公路交通流运行状态,并利用随机森林和回归分析法建立实时交通冲突数计算模型。另一类是以气象为输入的风险模型,因使用实测数据而具有小样本、长周期、大区域等特点,多采用回归分析、加权分析等统计方法,输出未来一段时间某条高速路段或某个区域路网的交通事故发生风险,一般不适用于公路交通安全状态的实时评价 。也有少数学者结合地理、路网或交通因子,构建更为精细化的气象预报或风险评估模型 ;如张振东等 利用雾的覆盖率、能见度、摩擦系数及雾发生时间段构建了雾危险性指数,以综合评价宁沪 高 速 不 同 路 段 的 雾 事 故 危 险 程
5、 度;曲 晓 黎等 基于气象、道路、车流量等因素,运用层次分析法建立了河北省高速公路通行状况综合风险等级预报模型,并开展效果检验。然而,面向交通安全保障定点、定时、定量的动态气象服务需求,目前针对雾天环境下的高速公路交通事故风险性量化成果还远远不够。现有研究基本停留在仅包含单一气象因素的仿真测试或无法应对实时评价的气象模型构建上,并通常以初始全部变量为输入,在移植性、业务化、精准度等方面欠佳。因此,有必要以预报预警服务为着眼点,汲取两类模型构建优势,使用长时间序列实测数据开展雾事故动态判别气象模型方法研究。雾在苏皖地区公路交通气象灾害类型中的占比分别达 和 ,并且事故率仍呈显著上升趋势,。本文
6、以全国近年雾天交通事故多发高速公路路段前 名中的京沪高速()江苏段、京台高速()安徽段、宁洛高速()安徽段(以下简称“试验路段”)作为研究对象,采用支持向量机算法并结合特征筛选方案,建立事故发生时间、地理位置及气象影响因素与小时雾事故发生概率的关系模型,为提高不利天气下的交通安全影响预研预判能力提供技术参考。资料和方法 资料试验路段 年月至 年月雾事故数据来源于公安部交通管理科学研究所,信息包含事故发生时间、地点及事故类型等,总计 个(事故点位置分布见图);另通过互联网搜集到试验路段 年次雾事故资料,并经相关交警部门核实。试验路段气象数据来源于国家气象信息中心,包括沿线交通气象观测站和周边国家
7、地面气象观测站的能见度、风速、风向、气温、相对湿度等逐小时资料(气象站位置分布见图)。图试验路段雾天交通事故()和沿线气象观测站()位置分布 样本构建根据每起交通事故发生的时间、地点信息,按照就近匹配的原则,以距离最近(不超过 )且观测有效的气象小时监测数据表征对应时段内交通事故发生的气象环境信息,得到有气象观测匹配的小时雾事故记录 组,形成有效事件样本。经统计,交通事故位置与气象监测代表站之间的平均距离不到,其中约 的距离小于。采用配对事故和对照方法构建原始数据集。其中,为排除混杂因素影响,选取对照组(非事故样本)时考虑了如下条件:与事故发生时段对应;与事故气象监测代表站一致;所在日期与事故
8、发生日期相近;当日在该点处没有发生雾事故且气象观测有效。变量设计因变量为表征小时内是否有雾事故发生的二分定性变量,雾事故发生赋值为,雾事故不发生赋值为。以往研究通常以能见度作为单一参数衡量雾的危险性。但除了低能见度引起的视程障碍,近地以及地面湿度大、温度低造成的轮胎与路面附着系数减小也是引发雾天交通事故的另一重要原因。因此,本文结合雾生消及影响事故发生的气象条件 ,从能见度、相对湿度、风速、风向、气温等基础和衍生变量中选取 个作为初始自变量集;考虑到试验路段雾事故发生具有显著的时间变化特征气象科技第 卷和地理环境特点,将发生时间、地理位置等非气象因子也纳入初始自变量集,如表所示。其中,季节因素
9、分为春季(月)、夏季(月)、秋季(月)和冬季(月至次年月),依次引入个虚拟变量,和(表略);事故发生地点经快速聚类分析,分为西南(,)、西北(,)和东(,),依次引入个虚拟变量,和(表略)。表雾事故判别初始自变量集变量符号变量名称变量类型变量描述平均能见度数值变量事故发生内的能见度平均值最低能见度数值变量事故发生内的能见度最小值相对湿度数值变量事故发生内的相对湿度平均值前期相对湿度数值变量事故发生前内的相对湿度平均值风速数值变量事故发生内的风速平均值前期风速数值变量事故发生前内的风速平均值风向数值变量事故发生内的平均风向前期风向数值变量事故发生前内的平均风向气温数值变量事故发生内的气温平均值
10、变温数值变量事故发生时气温与前 气温的差值 变温数值变量事故发生时气温与前 气温的差值 变温数值变量事故发生时气温与前气温的差值 变温数值变量事故发生时气温与前气温的差值 变温数值变量事故发生时气温与前气温的差值 日气温降幅数值变量事故发生时气温与上一个:气温最高温度的差值 日气温最大降幅数值变量事故发生前最低气温与上一个:气温最高温度的差值 事故发生季节虚拟变量,和 取值分别代表春季、夏季、秋季和冬季 事故发生时段分类变量,分别代表:,:,:事故发生地点虚拟变量,和,取值分别代表区域位置西南部、西北部和东部 雾事故判别气象模型建立方法考虑到原始数据集事故样本较少、局部数据差异较大的特点,采用
11、支持向量机(,)建立逐时雾事故判别气象模型。为有效降低输入维数,减小冗余信息及多重共线性对模型预测速度和精度的影响,采用递归特征消除法(,)选择重要变量,并 利 用 主 成 分 分 析 法(,)提取其中的主分量作为 输入,以下简称“混合模型”;同时,与 模型和仅基于 或 的 模型进行判别效果对比分析,验证方法的合理性。主要技术流程如图所示。变量选择递归特征消除是一种基于特征变量排序的变量选择方法。本文以支持向量机分类性能作为评价函数进行特征消除,同时考虑到随机森林(,)对多重共线性不敏感且排序结果更加稳定,用来度量变量重要性。过程为:使用 评价初始自变量重要度,记录训练集的分类效果;删除重要度
12、最小的自变量,使用剩余变量构建新的训练集,重新评价变量重要度并记录分类器评价指标;重复上一步骤直至搜索完毕全部自变量;评价效果最好的训练集所对应的输入变量即为重要变量。主成分分析线性模型一般对多重共线性敏感,并希望在定量研究中涉及的变量较少,但得到的信息量又较多,本文通过主成分分析解决这一问题。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的新的综合变量,即主成分。按照分类器评价效果,选定前几个主成分作为 模型的输入,不仅可以进一步简化系统结构,还能保留所筛选重要变量的主要信息,抓住诱发雾事故的主要气象特征,并消除变量之间的相关性。第期宋建洋等:基于机器学习技术的逐时雾事故判别气象
13、模型图 混合模型建立技术流程 支持向量机支持向量机通过定义适当的核函数将输入向量映射到高维空间中,然后在模型复杂度和准确性之间寻找最佳的分类平面,很好地解决了小样本、非线性、高维数、局部极值等实际问题,在道路交通安全预 测 中 具 有 明 显 优 势。本 文 选 用 径 向 基()核函数:(,)()()其中,(,)为高维映射选用的核函数,为训练影响因子向量,为预测影响因子向量,表示欧氏距离,是控制高斯核宽度的参数。当根据结构风险最小化原则构建 模型时,引入正则化参数控制决策边界。和是影响 性能的主要参数,本文通过网格搜索寻找最佳参数组合。采用 方法 解决 分类结果的概率输出,即使用 模型(函数
14、)对标准 的输出值进行拟合,得到校验后的概率值。如果超过,判定小时内有雾事故发生,否则判定雾事故不发生。效果评价指标评价指标包括 分数()、召回率()和准确率(),并在参数寻优和性能评估过程中使用折交叉验证方法,即返回次验证结果的平均值,以避免模型过拟合和欠拟合。对于不均衡样本的分类问题,使用 衡量模型的优良通常比准确率更有意义。度量的是正类(事故)样本的排名,即从正类样本中随机挑选一个点,由模型给出的分数比从反类(非事故)样本中随机挑选一个点的分数更高的概率;越大,模型对事故的捕捉和非事故的误判往往能达到更好的平衡,一般处于 之间。本文将 分数作为模型参数设置和性能评估的第指标。假设将正类样
15、本中正确分类和错误分类的样本分别称为真正例和假反例,将反类样本中正确分类和错误分类的样本分别称为真反例和假正例。召回率度量的是正类样本中有多少被预测为真正例,对于灾害风险防控,相比事故空报更不希望漏报,故将召回率作为评估模型性能的第指标,见式()。准确率度量的是正确预测的样本数量占所有样本数量的比例,为评估模型性能的第指标,见式()。()()其中,为召回率分数,为准确率分数,为真正例样本数量,为假正例样本数量,为真反例样本数量,为假反例样本数量。模型训练结果分析及检验 模型优化参数选择常用的:事故对照配比率 构建平衡数据集并进行 训练。随机分层选择平衡数据集的(个)作为训练集,剩余(个)作为测
16、试集,并在训练过程中使用折交叉验证法。参照技术流程图,筛选对试验路段雾事故发生影响较为显著的重要变量及其主要特征进行支持向量机分类训练。最终选择,等 个气象因子以及,等个非气象因子,并保留前 个主成分时,混合模型判别性能最佳;对应的参气象科技第 卷数组合为:,。表给出了重要变量的主成分结构分析表。可以看到,模型提取的前 个主成分包含原始指标 的信息,完全可以解释变量之间的相关,并代替选择的重要变量建立判别模型;主成分在和上有较大的负载,可以代表能见度类变量对雾事故发生的影响;主成分在和上有较大的负载,可以代表相对湿度类变量对雾事故的影响;主成分在 和 上有较大的负载,可以代表地理位置对事故发生的影响;主成分在和上有较大的负载,可以代表风速类变量对雾事故的影响;主成分、和 分别在变温、变温、气温及日气温降幅上有较大的负载;主成分和则分别主要由 和 这个时间类变量来反映。表主成分结构分析表重要变量成分成分成分成分成分成分成分成分成分成分 特征值 贡献率 累计贡献率 对比验证结果表给出了 混合模型、单独模型、基于变量选择的 模型以及基于特征提取的 模型的效果对比。可见,对于训练集交叉验证,混