1、 收稿日期:作者简介:宋玉华(),男,山东文登人,工程师;王子晓(),女,山东德州人,在读硕士研究生;李焕群(),男,湖南邵东人,副教授;王珺(),女,山东高唐人,讲师。一种基于随机森林模型的消防监督检查频率预测方法宋玉华,王子晓,李焕群,王 珺 烟台市消防救援支队,山东 烟台;鲁东大学,山东 烟台;中国人民警察大学 防火工程学院,河北 廊坊 摘 要:目前,国家规定的消防安全检查频率相对固定,在满足法定检查频率的基础上,针对不同地区的火灾形势和管理水平等因素,提出基于随机森林模型的消防安全检查频率预测方法,为合理确定对社会单位的监督检查频次提供技术支持。对山东省某市的 个单位进行模型预测,当随
2、机森林的棵数为、决策树节点个数为 时,预测准确率可达到 。如果预测时使用五折交叉验证的方式进行训练学习,该模型仍具有较高稳健性,可实现高效的消防检查频率预测。该模型的提出可为通过机器学习技术实现检查频率的合理设定提供解决方案。关键词:消防检查;机器学习;随机森林;决策树中图分类号:;文献标志码:文章编号:()引言随着我国社会建设的不断发展,城市各类建筑数量显著增加,使用功能更加复杂,人民群众对消防安全的期望值提出更高要求,消防安全成为当前社会和谐稳定和经济持续发展的重要前提。但由于部分单位消防安全责任制落实不到位、消防安全规章制度不健全、消防隐患排查不彻底、消防设施维修保养不到位,加之经营或生
3、产过程中用火用电等致灾因素多、部分装修材料燃烧性能低、人为操作失误等因素存在,一旦发生火灾,人民生命财产安全会受到严重损害。消防救援机构日常监督检查,采用“双随机、一公开”模式,针对各类单位管理水平和危险程度合理安排消防安全检查频率,采取切实有效的防火措施,不断提高消防检查水平,是避免重大火灾事故发生的必要手段。消防监督检查规定、消防救援局“双随机、一公开”消防监督抽查实施细则(试行)明确规定:消防安全重点单位应当作为监督抽查的重点,非消防安全重点单位必须在监督抽查的单位数量中占有一定比例,对属于人员密集场所的消防安全重点单位每年至少监督检查一次;消防救援机构根据本地区火灾规律、特点等消防安全
4、需要组织监督抽查;在火灾多发季节,重大节日、重大活动前或者期间,应当组织监督抽查。具体到对各类社会单位的消防检查频次,在达到国家相关法规规定的监督抽查频次的基础上,若能结合当地火灾形势特点、消防本体安全和动态管理水平,确定合理有效的监督抽查频次,既能缓解当前消防监督任务繁重的压力,又能切实有效督促单位整改火灾隐患,强化自主管理水平,杜绝或减少火灾的发生,具有现实指导意义。随机森林是机器学习中的一个代表性算法,消防理论研究其采用多分类器投票的策略,能很好地避免过拟合问题,其典型抽样过程也使得随机森林相对于传统学习器,在解决特征冗余和过拟合问题方面有更好的表现。在过去的 年中,随机森林算法以其优异
5、的学习性能,在经济学、生物学、医学、火灾评估、机器视觉等诸多实际应用领域得到了广泛认可,已成为数据分析、知识管理、模式识别等众多领域的研究热点。本文拟通过随机森林算法,构建消防安全检查频率预测模型,摆脱现有检查频率依赖人为经验设定的模式,实现对检查频率客观合理的自适应学习设定。随机森林建模时,自变量可以是多个连续变量和多个分类变量的组合,响应变量可以是分类变量,也可以是连续变量。本文将检查频率变量设定为响应变量,通过建筑高度、建筑层数、耐火等级、建筑消防设施水平等多个连续自变量和分类变量的混合,对不同类型建筑消防安全检查频率的设定情况进行机器学习及预测。数据收集消防救援机构监督人员按照国家相关
6、规定和检查频次,每月通过“双随机、一公开”系统对监管的社会单位开展正常频次的随机抽查或专项检查,实际工作中应针对单位本体安全(如建筑规模、耐火等级、消防设施水平等)和动态管理(如管理水平、管理人员数量等)的具体情况,调整监督检查频率,合理优化监督检查力量,提升监督检查质效。如建筑规模复杂、建筑消防设施水平不高、管理不健全等指标达不到正常水平的应增加监督检查频率;反之,可降低监督检查频率。选取山东省某市 个单位的消防安全数据进行分析。数据采集了每个单位的 个检查评估指标,分别为单位名称、建筑高度、建筑面积、建筑层数、耐火等级、使用性质、室外消火栓、室内消火栓、自动喷水灭火系统、火灾自动报警系统、
7、排烟系统、消防管理水平和人员数量,每个指标的具体属性如表 所示。本次研究针对社会单位消防监管,对所有样本数据,根据建筑设计防火规范规定,除住宅外,将建筑高度不超过 的两层及以上或高度 以上的单层建筑划分为单多层建筑,建筑高度超过 的两层及以上建筑划为高层建筑。条检查样本数据中两类建筑的消防检查频率统计如图 所示。表 检查评估指标表属性类型属性类型单位名称字符型室内消火栓连续型建筑层数连续型排烟系统离散型室外消火栓连续型建筑面积连续型火灾自动报警系统 离散型使用性质离散型人员数量连续型 自动喷水灭火系统离散型建筑高度连续型管理水平离散型耐火等级离散型图 不同建筑消防检查频率统计图 由图 可以看出
8、,无论是对于单多层建筑(图中内环),还是对于高层建筑(图中外环),正常检查频率的比例是最多的。不同的是,对于拥有高层建筑的单位,增加检查频率的占比要比拥有单多层建筑的单位中增加检查频率的占比高 多个百分点。在我国近年来经济飞速发展的大背景下,高层建筑的消防安全形势日益严峻,图 的统计结果也符合当前加强高层建筑消防监督管理的形势要求。此外,根据使用性质这一指标及中华人民共和国消防法第 章附则中“人员密集场所”的含义,将其划分为如表 所示的不同场所。表 不同场所类别划分表类别使用性质人员密集场所商场、宾馆、公共娱乐场所学校、医院、养老院车站、码头博物馆、旅游景区劳动密集型企业非人员密集场所国家机关
9、邮政、通讯枢纽粮库、易燃易爆场所办公楼 不同使用性质场所的消防安全检查频率统计如图 所示。由图 可以看出,对于非人员密集场所(图中内环),正常、降低及增加检查频率的单位占比宋玉华,等:一种基于随机森林模型的消防监督检查频率预测方法比较接近。但是,对于人员密集场所(图中外环),增加检查频率的单位占比远高于降低检查频率的单位占比。这也说明,我国各级消防救援机构近年来加强了对人员密集场所的消防安全检查力度,符合应急管理部 年加强人员密集场所防范重大消防安全风险通知中关于加强消防安全管理的要求。图 不同使用性质场所的消防检查频率统计图 随机森林模型构建在采集到的 条消防检查数据中有 条数据存在缺失值,
10、将其删除,最后用于模型构建及测试的数据为 条。随机选取其中(条)的数据作为训练集,剩余(条)作为测试集。利用 编程开发环境,按照以下过程构建随机森林模型:第一步,使用 随机采样方法抽取训练样本以完成随机森林模型的构建。第二步,基于表 的检查评估指标属性,在每个节点处随机选择 个属性,构建 决策树,根据公式()、()计算出基尼指数。()()()()()()式中:()表示类别在节点属性上的条件概率,代表节点属性 处的样本量。选择基尼指数最小的一个属性进行分支生长。第三步,重复第一步和第二步的过程,决策树节点一直分裂,直到满足停止条件。第四步,对生成的决策树进行集成,完成对随机森林模型的构建。在以上
11、构建过程中,生成的每个决策树之间都是相互独立的,通过每棵决策树分类器的投票产生最终预测结果。基于随机森林模型预测消防安全检查频率 研究思路利用上文生成的训练集和测试集,对随机森林模型重复训练及测试 次(五折交叉验证法),主要的建模及验证过程分为以下几个部分:()利用随机森林算法构建步骤,通过训练数据集建立随机森林模型;()调试不同参数值(主要包括决策树节点个数 和森林中的决策树棵数),获取最优模型;()利用预测数据集检验模型的预测效果。优化参数影响随机森林模型预测性能的两个主要参数,分别是决策树的节点分支属性数 和决策树的棵数。研 究 测 试 发 现,语 言 编 程 开 发 环 境 的 函数中
12、,以上两个参数的缺省值并不能使模型达到最优预测性能,因此,以下将通过实验调参的方式确定其最优参数值。对于决策树节点分支属性数,采用逐个增加变量个数的方法进行重复循环建模,最后求出最优 值。对于决策树棵数,分别取 ,建立随机森林模型。确定最优分支属性数 函数中参数 的 缺 省 取 值 是(),其中是指全部属性总数。如表所示,消防检查指标属性总数(自变量)为 个。在确定最优 值时,分别固定决策树的棵数 、,令 ,(“单位名称”属性除外),取随机森林模型预测准确率最高值为 的最优值。调参结果如图 所示。图 分支属性数 调参结果 由图 可以看出,随着 值的增大,模型训练集数据的误差率先急剧下降,然后变
13、化逐渐趋于平缓。在取值为和的情况下,均呈现这种规律,消防理论研究而且同时在 时模型的误差率最小。所以,以下测试中采用 的最优参数取值。确定最优决策树棵数通常情况下,决策树棵数的确定具有一定主观性。如果棵数过少,那就不是森林了;如果棵数太多,又会影响模型的运行时间。由上文分析结果可知,对于训练数据构建随机森林模型的最优节点数。所以,此处在确定最优决策树棵数 取值时,固定 ,令决策树棵数 ,得到图 图 所示的测试结果。图 决策树棵数 调参结果图 决策树棵数 调参结果 由图 图 可以看出,当决策树棵数 时,模型的误差率基本趋于稳定,且小于、时模型的误差率。综合考虑学习性能和学习效率,以下测试中采用
14、的参数取值。预测结果采用五折交叉验证训练和测试随机森林模型对消防安全检查频率的预测效果,其中,分支节点数固定为 ,决策树棵数固定为 。五折交叉验证测试得到的混淆矩阵如表 所示,“降低”“正常”“增加”分别代表降低消防安全检查频率、正常检查频率及增加检查频率。图 决策树棵数 调参结果图 决策树棵数 调参结果图 决策树棵数 调参结果 表 中的每一行表示每种检查频率实际观测值的个数,每一列表示每种检查频率通过随机森林模型预测值的个数。由表 可以看出,随机森林模型对消防安全检查频率的预测准确率比较高,其中第、折的平均预测准确率达到了,最终的模型预测平均准确率为 。该结果说明,本文构建的随机森林模型对消
15、防安全检查频率有较好的预宋玉华,等:一种基于随机森林模型的消防监督检查频率预测方法测效果,可为通过机器学习的方式合理安排执法检查工作提供依据。表 五折交叉验证预测结果折数类别降低正常增加错误率 平均准确率第 折降低正常增加第 折降低正常增加第 折降低正常增加第 折降低正常增加第 折降低正常增加 此外,针对每个自变量属性(“单位名称”属性除外)对于模型判别的重要程度也进行了测试,结果如图 所示。图 消防检查指标重要性统计图 图()以平均精度下降作为度量标准,图()以节点的平均不纯度下降作为度量标准,即描述了基尼指数的下降程度。如果指标属性对应的值较高,则说明该自变量对模型的判别影响较大,反之则影
16、响较小。图 表明,在 个消防安全检查指标属性中,管理水平的评估值最大,即管理水平对检查频率的预测起着至关重要的作用。结束语国内对随机森林模型在消防安全检查领域的应用研究并不多,本文通过随机森林构建了消防安全检查频率模型,该模型具有较高的预测性能,可在测试数据上达到 的预测准确率,具有较好的实际推广和使用价值。推进以随机森林为代表的机器学习技术在消防执法领域的应用,可以合理优化对各类社会单位的监督检查频率,缓解当前消防监督检查人员不足的现状,提升监督检查质效,确保有限的监督检查力量投入到最需要的地方,极大促进“智慧消防”建设,推动信息化在火灾防控体系中的深度建设与应用。与此同时,本文研究也存在一些不足之处,需在今后的工作中进一步加以改进和完善。首先,由于大规模获取消防安全评估指标的困难性,本文数据样本的评估指标较少,今后可以考虑加入更多定性或定量指标,进一步提升模型的预测准确率。其次,本文在优化模型参数时使用迭代优化的办法,即固定一个参数、迭代优化另一个参数,今后可考虑使用同时自适应优化多个参数的方法获取最优参数取值。最后,本文测试过程中对有缺失值的样本数据直接进行了删除处理,为避免样本