1、doi:10.13301/ki.ct.2023.02.027第42卷第02期2023年02月煤炭技术Coal TechnologyVol.42 No.02Feb.20230引言随着对煤田矿井的持续开采,井下地质环境状况也随之复杂化。随着开采深度增加、煤体构造特殊、煤层瓦斯分布不明等情况的存在,顶板类事故的发生的可能性及后果不容小觑,煤矿顶板事故造成的人身伤亡事件虽近年来有所下降,但仍会对人民生命财产安全造成严重损害。因此,对于煤矿顶板事故的致因研究非常必要。为实现对煤矿顶板事故的预防,国内外学者针对煤矿顶板事故成因进行了大量研究。王琦等从通过地质学的相关机理分析顶板事故的发生原因,提出了一种基
2、于预警模式的顶板超前支护预防方法;李博杨等通过风险指标与灰色理论结合的方法对顶板事故进行预防评价;明崯崯等归纳概括出24种顶板事故致因,并利用ISM法探究顶板事故的多层级递进机制。同时,近年来关联算法和数据挖掘技术也被相应地应用于煤矿安全治理方面,Qiu Z X等将文本挖掘技术与复杂网络相结合,探究了煤矿事故的致因机制;雷煜斌等通过关联算法对煤矿瓦斯致因进行数据挖掘,得到瓦斯事故致因链;张长鲁利用关联算法通过对某矿隐患排查数据得到各危险源间的耦合关系。通过上述学者们对于煤矿顶板事故的分析总结,其大多数使用指标权重和数值统计模式分析事基于文本挖掘的煤矿顶板事故致因网络分析*田水承1,2,周鹏辉1
3、,2(1.西安科技大学 安全科学与工程学院,西安710054;2.西安科技大学 安全与应急管理研究所,西安710054)摘要:针对我国煤矿顶板事故现状,需明确顶板事故致因因素,有针对性地科学管控应对。运用文本挖掘、R语言及关联规则技术,选取20082020年国内116例煤矿顶板事故调查报告进行归并分词、特征项降维及可视化处理后,构建关联规则及复杂社会网络中心性分析及核心边缘结构分析。结果表明,顶板事故各致因间存在紧密联系,安全管理混乱、安全教育培训不足、安全监督检查不到位、技术措施不完善、安全意识淡薄、违章操作等6项致因对事故的发生起主要作用,同时在复杂社会网络分析中也处于核心地位,应对其高度
4、重视和管控,从而减少煤矿顶板事故的发生。关键词:煤矿顶板事故;文本挖掘;R语言;Apriori算法;网络分析中图分类号:TD327.2文献标志码:A文章编号:1008 8725(2023)02 117 05Network Analysis of Coal Mine Roof Accident Causation Based on TextMiningTIAN Shuicheng1,2,ZHOU Penghui1,2(1.College of Safety Science and Engineering,Xian University of Science and Technology,Xian
5、 710054,China;2.Institute of Safety and Emergency Management,Xian University of Science and Technology,Xian 710054,China)Abstract:In view of the current situation of coal mine roof accidents in China,it is necessary to clarifythe causal factors of roof accidents,and target scientific control and res
6、ponse.Using text mining,Rlanguage and association rule technology,116 domestic coal mine roof accident investigation reportsfrom 2008 to 2020 were selected for subsumption of words,feature item dimensionality reduction andvisualization,and then association rules and complex social network centrality
7、 analysis and core edgestructure analysis were constructed.The results show that the causes of roof accidents are closelyrelated to each other,and the six causes of accidents,such as chaotic safety management,insufficientsafety education and training,inadequate safety supervision and inspection,impe
8、rfect technicalmeasures,poor safety awareness and illegal operation,play a major role in the occurrence of accidents,and are also in the core position in the analysis of complex social networks,so that they should behighly valued and controlled to reduce the occurrence of coal mine roof accidents.Ke
9、y words:coal mine roof accident;text mining;R language;Apriori algorithm;network analysis*国家自然科学基金面上项目(51874237);国家自然科学基金重点支持项目(U1904210)117故机理研究,但由于上述多种方法存在主观判断和诸多不确定因素等原因,基于上述分析,本文在相关研究的基础上,运用文本挖掘方法和关联规则分析煤矿顶板事故致因,为预防煤矿顶板事故提供新依据。1煤矿顶板事故致因的文本挖掘流程1.1构建文本挖掘语料库煤矿事故发生后,企业及当地政府根据事故损失、伤亡人数、社会影响等多方面原因进行详细
10、的事故调查,各省各地事故调查报告可以真实准确反映事件发生状况、责任原因、事故救援处置等全方面多角度做出描述解释。相对于其他文章更具有代表性和权威性,故选择成为本文文本挖掘语料。参考煤矿事故等级的划分标准,同时考虑到事故对社会的负面影响,选择事故人员伤亡和经济损失评价等级为较大事故以上级别(含较大事故)的事故案例。选取煤矿相关信息较为权威的煤矿安全生产网、应急管理部以及各省市相关的行政管理部门网站共收集20082020年煤矿顶板事故报告116例,作为本文煤矿顶板事故致因语料,报告涉及近年来较新的事故统计数据,确保后续使用文本挖掘分析煤矿顶板事故的客观性。1.2确定文本数据挖掘工具为了实现对煤矿顶
11、板事故致因的文本挖掘,需要根据数据类型对文本分析选择合适的数据挖掘工具,根据上述事故报告语料库的确定,确定本文数据类型为文本类数据。现阶段,R语言相比于Python,C语言等机器语言来说,可以为用户提供自由开发的编辑环境,用户可以根据需要自行选择所需专业涉及的前端采集、终端处理、后期分析的全过程软件分析包,因此,本项研究使用R软件及机器语言进行事故分析考究。通过梳理,将上述116项煤矿顶板事故报告汇总整理为便于机器识别的TXT格式文本,为减少数据冗杂,提升文本挖掘的准确度,避免口语虚词和事故主要信息丢失等情况出现,需在去停分词程序前,对相同含义但不同表达形式词类进行统一化归并处理,以便于后续算
12、法识别分析。通过R语言的分词程序对文本数据进行预处理,共确定了356项初始特征值,但其中有很多无用数据,对于事故预防没有实际意义,影响后续文本分析,因此需要对所得的特征项进行降维筛选分析。通过对各种降维方法的对比分析,发现卡方统计在准确率和回归性上更有优势,因此选取卡方统计法对煤矿顶板事故文本集进行降维筛选。故整个文本语料库的2值的表达式,最大特征项维数2max(ti)=maxmj=12(ti,Tj)(1)式中m维数;ti特征项;Tj文本类别。通过使用软件内置专属工具集包及建立公式对测试集进行降维处理,其结果如图1所示。图1煤矿瓦斯事故报告特征项降维结果图1.3煤矿顶板事故致因词云分析根据分词
13、处理及特征性降维,得出上述28项特征值,为便于掌握煤矿顶板事故致因的重要程度,调用R语言的Worldcloud程序包对数据进行可视化处理,得到如图2所示的顶板事故致因词云图。在词云图中,根据文字大小、颜色深浅以及在图中所处位置来判断煤矿顶板事故致因重要性。根据图2的结果显示,上述28项致因中安全管理混乱、安全教育培训不足、安全监督检查不到位及技术措施不完善等致因结果占比较大,其中管理混第42卷第02期基于文本挖掘的煤矿顶板事故致因网络分析田水承,等Vol.42 No.02隐蔽致灾因素排查不彻底T26顶板事故致因特征项围岩变形量大T28未进行超前支护T27操作技术不熟练T25安全生产投入不足T2
14、4监测预报不准确T23应急处置不当T22违规开采T21空顶作业T20违章指挥T19支护质量差T18未进行敲帮问顶T17安全监管机构不健全T16地质构造条件差T15人员进入冒落区T14顶板管理不到位T13未按规程作业T12应力集中T11顶板冒落T10支护强度不够T9隐患排查治理不力T8安全隐患辨识不足T7违章操作T6安全意识淡薄T5技术措施不完善T4安全监督检查不到位T3安全教育培训不足T2安全管理混乱T1100806040200特征项词频/次92908379626153575045363228262524211614131210997644118乱的问题最为明显,这是企业管理层对安全重视不足导
15、致,在煤矿风险防控中应予以高度重视。任何顶板事故的发生都不是由单一的因素造成,往往是由多重原因耦合导致。根据显示表明,人为因素和管理因素为顶板事故发生的主要原因,新职工上岗前未达到规定的培训时长,教育培训流于形式,对于风险隐患的辨识更是模糊不清,自保互保的安全意识十分薄弱等方面原因容易对事故掉以轻心,造成事故发生。同时企业和现场安全管理工作人员的日常监督检查存在漏洞,职工违章操作现象仍屡见不鲜。因此煤矿企业需根据上述主要致因做出必要的管控,加强监督检查和监管力度,遏制顶板事故悲剧的发生。2顶板事故致因关联分析2.1Apriori算法原理关联分析法是文本挖掘中使用较多的分析方法,其主要原理是追溯
16、项集与项集之间的各种关系,通过两者之间存在的必然联系得出所需的价值信息。支持度及置信度作为关联规则的度量指标。Support(XY)=(X,Y)D(2)Confidence(XY)=(X,Y)(X)(3)式中Support支持度,指X项、Y项同时出现在数据集D中的概率;Confidence置信度,指X项集出现在Y项集的概率;(X)包含项集X的数量;(X,Y)包含项集X和项集Y的数量;D数据集。但有时存在规则前后项转置的问题,这时可通过提升度(Lift)来反应项集之间的关联性,当Lift(XY)1时表明规则之间相关性越大。提升度Lift(XY)=P(Y|X)P(Y)=Confidence(XY)Support(Y)(4)式中P(Y|X)X项集中Y项集出现的概率;P(Y)Y项集的比例。Apriori算法是挖掘布尔关联规则的经典算法,该算法的核心是基于两阶段频集数据逐步迭代,通过合理设定指标阈值,再对比判定是否为频繁项集,产生强关联规则。利用Apriori算法进行煤矿顶板事故致因关联规则挖掘,其算法主要运行步骤如图3所示。图3关联规则流程图2.2顶板事故致因关联规则挖掘Apriori算法的支