1、第 40 卷第 2 期2023 年 6 月爆破BLASTINGVol 40No 2Jun 2023doi:10 3963/j issn 1001 487X 2023 02 014基于特征工程的 XGBoost 爆破块度预测研究*夏淑媛,董永峰,王利琴(河北工业大学 人工智能与数据科学学院,天津 300401)摘要:露天矿山台阶爆破后矿岩的平均块度是衡量爆破质量的重要指标。早期研究主要依靠经验公式总结、岩体力学模型计算等方法,这些方法存在准确率不够、主观性强等缺点。近期,机器学习算法应用于块度预测,但基本通过专家经验选用固定的特征来进行预测且预测稳定性不足,泛化能力差。针对以上缺点,提出一种基于
2、特征工程的极端梯度提升树(XGBoost)爆破块度预测模型。以太原袁家村铁矿为研究区,采集近半年的爆破数据作为原始数据,综合考虑影响平均块度的各方面因素。首先使用随机森林(F)的袋外估计和互信息(MI)两种方法分别进行特征选择,其次将不同方法选择的特征子集集成并利用特征之间的互信息进行去冗余,最后以 MSE 的值为评价指标选出最优特征子集表征爆破,完成基于数据驱动的特征选择。更进一步,在最优特征子集上采用 XGBoost 算法进行块度预测,通过均方误差(MSE)、平均绝对误差(MAE)两个指标构成模型的评价体系将文章所提方法与其他传统机器学习算法进行对比。对比结果表明:文章提出方法比传统机器学
3、习算法的预测准确率更高,可以为爆破的管理与控制提供科学指导。关键词:随机森林;互信息;Xgboost 模型;平均块度中图分类号:TD235 3文献标识码:A文章编号:1001 487X(2023)02 0097 05收稿日期:2023 01 04作者简介:夏淑媛(1986 ),女,实验师、硕士研究生学历,主要从事数据挖掘、机器学习、物联网等方面的教学和科研工作,(E-mail)447463736 qq com。通讯作者:董永峰(1976 ),男,教授、博士研究生学历,主要从事大数据,知识图谱,机器学习等方面的教学和科研工作,(E-mail)dongyf hebut edu cn。基金项目:河北
4、省高等学校科学技术研究项目(ZD2022082);河北省高等教育教学改革研究与实践项目(2020GJJG027)Study on Blasting Lumpiness by XGBoost Modelbased on Feature EngineeringXIA Shu-yuan,DONG Yong-feng,WANG Li-qin(School of Artificial Intelligence,Hebei University of Technology,Tianjin 300401,China)Abstract:The average lumpiness of ore rock is
5、an important index to measure the blasting quality The early re-search mainly relies on empirical formula summary,rock mechanics model calculation,which have shortcomings suchas insufficient accuracy and strong subjectivity ecently,machine learning algorithm is applied for prediction,butstill have p
6、roblems such as empirical feature selection,insufficient model prediction stability,and poor generalizationability for the prediction of blasting material fragmentation Aiming at above shortcomings,an extreme Gradient Boos-ting(xgboost)blasting fragmentation prediction model based on Feature Enginee
7、ring is proposed Taking YuanjiacunIron Mine in Taiyuan as the research area,engineering data are collected,andom Forest(F)and Mutual Informa-tion(MI)are used for feature selection respectively,and the two feature subsets are integrated to obtain the best fea-ture subset based on the value of MSE XGB
8、oost is used to predict the block size on the optimal feature subset,andthe evaluation system is composed of two indexes:Mean Square Error(MSE)and Mean Absolute Error(MAE)Theproposed method is compared with other traditional machine learning algorithms,and the results show that it is betterthan othe
9、rs Furthermore,it can provide scientific guidance for the management and control of blastingKey words:random forest;mutual information;XGBoost-model;average lumpiness爆破是矿石开采中最重要的环节,评价爆破效果最重要的参数之一就是块度1,2,爆破块度不仅影响爆破综合成本,还影响装载、运输等后续环节的效率3,4,因此实现爆破设计参数的优化,对爆破块度进行预测和控制是爆破施工的重要目标。爆破早期研究主要依靠现场爆破试验、经验公式总结、岩
10、体力学模型计算等方法5,其中以 Cunningham 提出的KUZ-AM 模型为代表6,能够较好地预测爆破块度。随着计算机科学与人工智能技术的创新与发展,针对传统爆破料堆块度预测方法的不足,机器学习(Machine Learning)方法正逐渐应用于爆破块度预测问题,并逐渐从经验层次向自动化、智能化层次发展2,5,7-9。美国的 Kulatilake 和土耳其 T Hudaver-di 等提出采用人工神经元网络(ANN)方法预测岩石爆破中碎石的平均块度7,通过多种算法模型对比,证明了神经网络模型的可行性;史秀志等得出SVM、LS-SV 方法预测岩石爆破块度优于 Kuz-am公式法10,11;T
11、 Hudaverdi 等基于多元回归分析(MVA)方法12,提出了考虑岩石节理特性、炸药性质及钻孔参数的爆破块度预测模型,但拟合精度仍有待提高。王仁超等随机森林回归方法在模型预测性能上优于 BPNN、SV 模型13;叶海旺等提出LOO-XGBoost 模型主要针对爆破领域的小样本问题14,预测性能好于同条件下的 SV、BPNN、F 以及 10 折交叉验证下的 XGBoost 模型。但上述所有研究采用的均是 T Hudaverdi 构建的数据库中的 91个爆破数据,选取爆破特征时直接采用爆破工程研究者提出的比率形式,这就导致数据来源单一,输入特征单一且过于依靠专家经验的问题凸显。针对爆破特征选择
12、过程存在主观性及所采用传统机器学习算法性能不佳等问题,提出一种基于特征工程的XGBoost 的爆破块度预测方法,真正地实现使用工程数据来选择影响爆破效果的特征,并通过构建模型对这些特征进行分析预测,辅助相关爆破专业人员进行爆破相关参数配置。首先整理,筛选,剔除明显异常工况数据,接着使用随机森林以及互信息以MSE 为评价指标分别进行特征选择,形成特征子集M 和 N,更进一步,依据最小冗余原则将 M 和 N 进行集成,形成最优特征子集 U。最后,在 U 上使用不同模型计算,通过比较不同模型的 MSE 和 MAE 指标值,验证本文所提方法的可行性和优异性。1特征选择与极限梯度提升算法原理1 1基于随
13、机森林(F)特征选择对每一棵决策树,选择相应的袋外数据(Out-Of-Bag,OOB)计算袋外数据误差 errOOB1(Out-Of-Bag1 Error,errOOB1);随机对袋外数据 OOB 所有样本的特征 X 加入噪声干扰,再次计算袋外数据误差,记为 errOOB2;计算所有决策树的测试平均误差,以平均精度下降率(Mean Decrease in Accuracy,MDA)作为指标进行特征重要性计算15,MDA 公式如下MDA=ni=1(errOOBi1 errOOBi2)/N(1)如果加入随机噪声后,袋外数据准确率大幅度下降,说明这个特征对于样本的预测结果有很大影响,进而说明重要程度
14、比较高。依此方法对爆破相关特征进行重要性排序,进行特征选择;以 XGBoost算法为基准模型依次放入 topK 个特征验证不同特征子集的 MSE 值,选取 MSE 值最小的 topK 个特征为特征子集 M。1 2基于互信息(MI)特征选择互信息的公式为I(X,Y)=XYP(X,Y)logP(X,Y)P(X)P(Y)=H(Y)-H(Y X)(2)式中,I(X,Y)表示由 X 引入而使 Y 的不确定度减小的量。I(X,Y)越大,表明两个变量相关性越大,I(X,Y)取 0 时,代表 X 与 Y 独立。基于最大相关最小冗余准则,计算特征与平均块度的互信息,删除互信息为 0 的特征;计算留下特征之间的互
15、信息,若两两互信息值大,则保留一个特征,最终形成特征子集 N。1 3XGBoostXGBoost 是由 K 个基模型组成的一个加法模型,设我们第 t 次迭代训练的树模型y(t)i=tk=1fk(xi)=y(t1)i+ft(xi)(3)XGBoost 的目标函数定义如下Obj=ni=1l(yi,yi)+ti=1l(yi,yi)(ft)(4)式中,ti=1(fi)是将全部 t 棵树的复杂度进行求和。根据公式(3)(4),以第 t 步的模型为例,目标函数可以写成Obj(t)=ni=1l yi,y(t1)i+ft(xi)+(ft)+constant(5)将公式(5)泰勒展开,第 t 步时,l yi,y
16、(t 1)i 是常数,去掉全部常数项,目标函数为89爆破2023 年 6 月Obj(t)ni=1gift(xi)+12hif2t(xi)+(ft)(6)式中,gi=l yi,y(t 1)ity(t 1)i,hi=2l yi,y(t 1)iy(t 1)i。(ft)=T+12Tj=1w2j(7)式(7)定义了一棵树,其中 T 为叶子结点的复杂度,为惩罚系数,wj为叶子结点的权重。将式(7)代入式(6),整理最终目标函数为Obj(t)Tj=1Gjwj+12(Hj+)w2j+T(8)Gj=iIjgj叶子结点 j 所包含样本的一阶偏导数累加之和,Hj=iIjhj叶子结点 j 所包含样本的二阶偏导数累加之和。2块度预测模型建立2 1数据预处理采集现场爆破数据,获取爆破设计参数与实例如表 1 所示。表 1爆破设计参数示例Table 1Example of blasting design parameters序号WB/mD/mmL/mmHeWd/mS/mT/m10 914 1714010 60 79015 10 478 735 294 5将中孔爆破块状图复制到现状图中,测出首排孔抵抗线 W,底盘抵抗线