1、 年 月云南化工 第 卷第 期 ,:基于数据挖掘的油气勘探开发事故分析柴天祥,樊建春,赵宏展,马娟,刘德昌(中国石油大学(北京)安全与海洋工程学院,北京 ;中国石化集团国际石油勘探开发有限公司,北京 )摘要:对油气勘探开发事故之间的相关性进行了分析,以预防事故的发生。采用数据挖掘方法,运用 算法对事故发生阶段、事故类型和事故后果展开了关联规则分析,构建了事故致因复杂网络模型。对挖掘出的强关联规则以及网络拓扑特征进行了分析,找出了油气勘探开发中的风险点和关键致因,为提高安全管理水平和预防事故发生提供了依据。关键词:油气勘探开发;数据挖掘;算法;复杂网络中图分类号:文献标识码:文章编号:(),(,
2、(),;,):,:;油气勘探开发是石油工业的重要组成部分,涉及众多危险有害因素,且作业环境复杂,一旦发生事故,容易造成重大的人员伤亡与财产损失。对过往事故数据进行关联规则挖掘,找出事故演化规律及导致事故发生的频繁因素之间的关联性,对预防和减少油气勘探开发事故具有重要的意义。近年来,随着信息化技术的快速发展,关联规则挖掘技术在事故分析和预防方面得到了广泛的应用。年,等 首次提出 算法作为关联规则挖掘的一种算法,其基本思想是通过寻找频繁项集来发现关联规则。黄常海等 也基于 算法对船舶交通事故数据进行了关联规则分析,挖掘了事故间的强关联规则。复杂网络理论的提出以一种新颖的方式清晰展示了事故致因因素之
3、间复杂的相互关系,一些学者将复杂网络模型引入安全分析领域。例如,赵丹等 通过构建低等级公路交通事故致因复杂网络模型,探索了低等级公路风险因素成因及其相互作用机理;花玲玲等 基于 相关系数,分析了致因因素之间的相关性,并据此建立了铁路事故致因网络模型。算法及复杂网络概述 算法 算法的核心思想是挖掘事故的频繁项集合 ,利用几次迭代来计算数据库中的频繁项集,并找出其中的强关联关系。其中,关联规则中最重要的两个 概 念 是 支 持 度()和 置 信 度(),表 是相关参数含义和公式。表 关联规则的部分参数值参数名称参数含义公式支持度事务集 中出现 和 的项集数与总项集数的比值,表示其在总项集中出现的频
4、率 ()()()()置信度项集中同时出现 和 的项集数与仅出现 的项集数的比值,表示包含 的事务中出现 的条件概率 ()()()提升度事务中 和 的置信度与项 的支持度之比 ()()复杂网络复杂网络是一种基于图论研究复杂系统结构与相互关系的建模方法 ,它通过节点和边的连接关系来捕捉系统内部复杂的交互和演化工程。复杂网络的拓扑特征是指网络中节点和连接之间的结构性特征,用于描述网络的形状、分布和连接模式,常用的网络拓 年 月云南化工 第 卷第 期 ,扑特征指标有节点的度、网络直径和平均路径长度、聚类系数、节点的紧密度、接近中心度等 ,如表 所示。表 复杂网络拓扑特征统计指标名称指标定义含义赋权度
5、网络中节点 的赋权度 可表征节点 的重要性及其对周边节点的影响力网络直径 ,所有节点对间距离的最大值平均路径长度 ()网络中所有节点对的平均距离聚类系数()()()()()节点 的邻点之间连线数占预期最大连线数量的比例紧密度()()节点 到其它节点的距离之和的倒数 ()()()()()()()(())用于计算复杂网络模型中的关键节点接近中心度 (,)通过计算节点到其他节点的平均最短路径长度来衡量 数据收集与预处理 数据收集事故数据来源于国内某大型企业的事故数据库,从该数据库中获取油气勘探开发事故的主要信息,该数据资源具有数据量大、数据型式多模态化(文本、数字、图片等)、非结构化文本信息丰富、语
6、言表达形式多样等特点。对收集到的数据进行清洗,剔除不完整、无效的信息,最后保留 件。特征参数提取将数据按照事故基本信息划分框架进行划分,如图 所示。该框架由海外机构和项目所在地、事故发生时间、事故作业阶段、事故类型、事故后果、事故致因等事故特征构成,实现由事故文本特征构成的事故数据清洗。图 事故基本信息划分框架 属性参数将事故数据中的 个关键事故属性进行二级指标的分类,如表 所示。其中将事故类型进行进一步的细化,如表 所示。表 事故特征及因素分类编号属性具体属性指标第一类作业阶段勘探、钻完井、开发采油、地面建设、办公住宅、后勤与材料供应第二类事故类型人身安全事故(作业过程)、工艺安全事故、公共
7、安全事故、交通事故第三类事故后果人身伤亡、资产 设备损失、环保第四类事故原因人因层、设 施 设 备 层、环 境 层、管理层表 事故类型具体指标人身安全事故工艺安全事故公共安全事故交通事故物体打击腐蚀绑架轻微的切、刺、刮、割破裂 磨损抢劫严重的滑倒跌落密封失效闯入重大的烧伤电气火灾爆炸恶意破坏高处坠落油气火灾爆炸封锁暴力和人身攻击其他易燃物压力释放井控事件受限空间通过借鉴人因分类及分析系统()、“”模型等事故致因分析模型 ,将油气勘探开发事故的影响因素分为人因层、设施设备层、环境层、管理层等 个层级,如表 所示。年 月云南化工 第 卷第 期 ,表 事故致因因素主因素编码子因素主因素编码子因素人因
8、层 违章操作 车辆故障 注意力不集中 起重设备故障 决策不当或缺乏判断力 密封设备故障 工作位置或姿势不当 电气设备故障 疲劳作业环境层 拥挤 杂乱 活动受限 工具 设备 材料 产品的错误使用 表面 平台 通道 道路光滑 吸毒 酗酒 暴力行为 易爆 易燃 有毒 窒息环境 工具 设备 材料 产品的维修检查不足 暴风雨(雪)地震 泥石流或其它自然灾害 擅离职守 当地治安环境不良 沟通不足 野生动物侵入 当天生病或过往病史管理层 作业现场监管不到位或缺失 劳保用品使用不当或未使用 公共安全保障或体系不完备 人员能力不足 工作技能培训不足 设备或材料固定不牢 工作标准或程序不足 通电设备维护 绝缘不足
9、 事故报告不及时 未吸取事故教训 未设置警示标志 安全培训不足或安全文化欠缺设施设备层 工具 设备 原材料 产品缺陷 安全预警 风险识别评估不足 设施设备设计缺陷 安全管理组织结构欠缺 保护系统或工作装置失效 设备管理不到位 基于 算法的关联规则挖掘 软件建模 是一款强大的数据挖掘和预测分析软件,由 开发。它提供了多种数据分析和建模工具,可用于探索数据、构建预测模型、识别模式和进行数据可视化。的功能包括数据预处理、特征选择、模型评估和部署等,能够进行全面的数据挖掘工作,其基本的操作流程包括:数据准备、特征选择、模型建立、模型评估与优化、模型应用与维护等。本文 算法在 软件上进行关联规则挖掘。以
10、作业阶段和事故类型作为前项,以事故后果作为后项,设置最小支持度为 ,设置最小置信度为 ,最大前项为 进行建模。算法挖掘流程图见图 ,运行生成的数据强关联规则见表 。图 网络图数据挖掘流程图表 整理后的关联规则表后项前项支持度 置信度 提升度事故后果 环保事故类型 密封失效 事故后果 人身伤亡事故类型 物体打击 事故后果 资产或设备损失事故类型 交通事故()事故后果 资产或设备损失作业阶段 开发采油 事故后果 人身伤亡作业阶段 地面建设 事故后果 资产或设备损失作业阶段 后勤与材料供应 事故类型 交通事故()事故后果 人身伤亡作业阶段 地面建设 事故类型 物体打击 事故后果 人身伤亡作业阶段 开
11、发采油 事故类型 物体打击 事故后果 人身伤亡作业阶段 办公住宅 事故类型 滑倒跌落 事故后果 资产或设备损失作业阶段 钻完井 强关联规则分析应用关联规则方法对油气勘探开发事故特征数据进行挖掘,不仅可以对事故属性进行单一因素的定量分析,还可以帮助我们从多因素的角度理解事故发生的机制。对强关联规则挖掘结果如下:从事故后果统计可知,人身伤亡事故多发生在地面建设、开发采油阶段且与物体打击密切相关;后勤与材料供应阶段常常发生轻型交通事故且极易造成资产或设备损失;开发采油属于需重点管控的作业阶段,不仅易造成人身伤亡,还与资产或设备损失后果有较高的关联性。基于复杂网络的事故致因分析 事故致因网络模型构建油
12、气勘探开发事故致因复杂网络模型的绘制是基于上述划分的致因因素,将每一个致因因素作为复杂网络中的一个节点,节点越大,表示该节点所代表的致因因素出现的频率越高 。对于同一事故中出现的多种致因因素,则用多条无向边进行连接,连接边的 年 月云南化工 第 卷第 期 ,粗细程度则表示各节点之间的关联程度,复杂网络图中用不同的颜色表示不同层的致因因素,最终运用 软件构建事故致因网络模型 ,如图 所示。图 事故致因网络模型 油气勘探开发事故致因网络模型特征分析 网络规模与密度在图 所示的油气勘探开发致因网络模型中,共有节点 个,边 条,平均路径长度为 ,即平均需要两条边就可以将 个因素连接起来;网络中的直径为
13、 ,即至多需要 条边就可以连接网络中的任意两个因素;平均度为 ,即事故致因网络模型中某一个节点发生变化,平均可以影响 个与之相关的节点,使其随之产生变化 。节点赋权度在复杂网络结构中,节点度代表每个节点与其他节点间的连接数量,本文中采用赋权的方式计算各致因因素赋权度的取值,见图 。图 赋权度分布大部分节点取值在 之间,而 、节点的赋权度较大,均超过了 ,表明这 种因素在油气勘探开发事故中占主要地位,与其他因素间有较强的相互作用 。可以看出,油气勘探开发事故频发与 、等不安全的工作环境以及 、等安全管理的不完善密切相关。连接边对图 中的 条边的连接数进行统计,并从高到低排序,取前 条边依次列出,
14、见表 。常常与 联系在一起;其次 与 关联性很强;而 与 密不可分。表 连接边及对应的致因因素排序边致因因素 致因因素 连接数 注意力不集中安全预警 风险识别评估不足 工具 设备 原材料 产品缺陷设备管理不到位 违章操作作业现场监管到位或缺失 注意力不集中表面 平台 通道 道路光滑 拥挤 杂乱 活动受限工作标准或程序不足 注意力不集中拥挤 杂乱 活动受限 工具 设备 材料 产品的维修检查不足设备管理不到位 表面 平台 通道 道路光滑安全预警 风险识别评估不足 聚类系数聚类系数反映了复杂网络中节点的聚类程度,较大的聚类系数表示节点与周围节点关系较为紧密 。在油气勘探开发事故致因网络模型中,各节点
15、的聚类系数如图 所示。若忽略聚类系数为 的无效节点,则复杂网络的平均聚类系数为 ,说明油气勘探开发事故致因网络模型的聚类效果好。基于 的节点重要度应用 算法,设置衰减因子为 ,误差为 ,迭代计算得到所有节点的 值 。根据图 中的 值,海外油气勘探开发事故致因网络的关键节点为 、。在图 聚类系数分布 年 月云南化工 第 卷第 期 ,油气勘探开发事故中,以上节点对事故的发生影响较大。切断这些风险因素,可以有效阻止事故的发生,从而提高安全性和降低潜在风险。图 值 接近中心度图 为节点的接近中心度,由图 看出,、的接近中心度大,说明这些节点到其他节点的最短距离均很小,处于网络的中心位置。其中,、均为管
16、理层因素。可以看出,安全管理方面的不完善或缺失是导致油气勘探开发事故的关键因素。图 接近中心度分布 结语过往事故案例分析对于安全管理和预防未来事故具有重要意义,本文提出运用关联规则和复杂网络相结合的方法分析油气勘探开发事故。这种综合性的分析方法可以为事故分析提供系统性的管理视角,有助于形成全面的事故预防和管理策略。通过分析可知:)运用 算法对油气勘探开发事故数据进行关联规则分析,可以精确定位到各属性间的关联关系,挖掘风险管控的关键环节,对提高管理者的安全管理水平有重要意义。)油气勘探开发事故的致因网络具有较小的平均路径长度和较大的聚类系数,表示网络中节点间紧密连接的程度高,一旦风险因素状态发生
17、改变,将在网络中很快传播;对网络的加权度、连接边、聚类系数、值、接近中心度进行分析,得出油气勘探开发事故关键致因因素,通过控制或切断这些关键致因可以有效预防事故的发生。参考文献:王兵,黄丹,李文瞡 基于支持度矩阵 算法的钻井隐患关联挖掘 西南石油大学学报(自然科学版),():黄常海,高德毅,胡甚平,等 基于 算法的船舶交通事故关联规则分析 上海海事大学学报,():赵丹,韩凤春,马骏,等低等级公路交通事故致因复杂网络建模与分析 公路交通科技(应用技术版),():花玲玲,郑伟基于复杂网络理论的铁路事故致因分析 中国安全科学学报,():,():郑霞忠,柯善钢,陈星,等基于复杂网络的内河船舶碰撞事故致
18、因分析 中国安全生产科学技术,():陈全,李馨玉基于复杂网络的化工事故致因分析 现代化工,():傅贵,陈奕燃,许素睿,等 事故致因“”模型的内涵解析及第 版的研究 中国安全科学学报,():王晶,樊运晓,高远 基于 模型的化工事故致因分析 中国安全科学学报,():,():关迎晖,向勇,陈康 基于 的可视分析方法研究与应用 电信科学,():王杰,李雪,王晓斌 基于改进 模型的不同规模海运复杂网络演化研究 交通运输系统工程与信息,():刘洪良,罗年学,赵前胜 基于灾害复杂网络的深圳台风灾害链风险分析 灾害学,():,:,():,():收稿日期:作者简介:柴天祥(),男,河北邯郸人,硕士,主要研究 方 向 为 油 气 生 产 事 故 预 防 与 风 险 评 估。:通讯作者:樊建春(),男,陕西汉中人,博士,教授,主要研究方向油气生产设施安全及完整性检监测与智能预警、钻完井风险评价。