基于深度自编码器的钻井工况智能识别研究_何淼.pdf-资源下载-蜗牛文库-知识共享服务平台

基于深度自编码器的钻井工况智能识别研究_何淼.pdf

1、收稿日期基金项目国家自然科学基金项目“基于数据驱动的深水钻井溢流智能识别与反演解释研究”（）；油气钻采工程湖北省重点实验室开放基金项目（）。第一作者何淼（），男，博士，副教授，现主要从事智能钻井、深水钻井技术、干热岩开发等方面的教学与研究工作，。为共同第一作者何淼，陈欢，张党生，等基于深度自编码器的钻井工况智能识别研长江大学学报（自然科学版），（）：，（），（）：基于深度自编码器的钻井工况智能识别研究何淼，陈欢，张党生，许明标，陈鑫，长江大学石油工程学院，湖北武汉油气钻采工程湖北省重点实验室（长江大学），湖北武汉非常规油气省部共建协同创新中心（长江大学），湖北武汉中国石油集

2、团渤海钻探工程有限公司井下作业分公司，河北沧州摘要由于钻井作业和地层的复杂性，钻井工况识别是钻井智能化中极具挑战性的问题之一。结合深度学习和自编码器技术，建立了基于深度自编码器的钻井工况智能识别模型，对钻进、循环、起钻、下钻、倒划眼、接单根、钻水泥塞、短起下钻和复杂情况九种工况进行实时识别。采用南海四口高温高压井的钻井数据，合计组，生成九种工况的训练集、验证集、测试集，占比分别为、。采用滑动时间窗口算法和归一化方法对输入特征进行处理，分别建立自编码器模型，然后对模型的激活函数等参数进行分析优选。结果表明，基于深度自编码器的工况识别模型的各工况识别准确率均达到了以上，与基于普通自编码器

3、的工况识别模型相比，准确率提高了至不等。同时每组数据的平均识别时间仅为，符合工况实时识别的要求。关键词钻井；工况识别；深度自编码器；滑动时间窗口算法中图分类号文献标志码文章编号（），（），（），：，：；长江大学学报（自然科学版）年第卷第期（），DOI:10.16772/ki.1673-1409.20230112.002目前钻井工况智能识别是钻井智能化研究的一大热点，是将机器学习和大数据技术与钻井工程相结合的交叉研究方向。随着测量工具、传感器和信号传输技术的不断发展，越来越多的钻井工程参数可以直观呈现在终端，人工智能技术可以有效地利用这些参数，提取数据的内部特征，进而对钻井

4、状态进行实时预测和识别，这对于提高钻井作业的时效性和安全性有着重大意义。国内外一些学者在工况识别方面已开展了相关研究工作。李玉飞等提出了基于和证据理论的早起溢流智能识别方法，在传统的基础上引入了后验概率输出模型。杨进等人采用主成分分析法对特征参数进行降维，再使用人工神经网络检测气体井涌。等利用长短期记忆循环神经网络学习指数数据和立管压力数据组成的时间序列数据之间的时间关系，实现早期井涌的检测。等将人工神经网络、二元分类器和井下钻井流量参数检测相结合，建立数据驱动的井涌检测模型。孙挺等提出了基于支持向量机的钻井工况实时智能识别方法，通过组合多个支持向量机来解决多分类问题。由此可见，目前的

5、研究工作主要集中在溢流等单一复杂工况的检测，而对于多分类问题的工况识别的研究则较少。其次，多层支持向量机是解决多分类问题的一种可选方法，但是其对于大规模训练样本难以实施，且对缺失数据较敏感。为此笔者结合深度学习和自编码器技术，提出了一种基于深度自编码器的钻井工况识别模型，通过训练学习各工况下的工程参数特征及趋势分布，利用滑动时间窗口算法实现钻井工况的智能实时识别。该方法普适性较强，对于新增的工况，只需要训练相应的自编码器，加入到整体模型中即可，不需要对整体模型重新训练，提高计算效率。同时深度学习技术能有效利用大量的录井数据，降低对于缺失数据的敏感性。深度自编码器经典自编码器经典自编码器于年

6、提出，是一种通过重建输入数据来学习数据内在规律的无监督学习神经网络，其输入和输出的维度是相同的。利用反向传播算法调整权值，再经过输入数据和输出数据的重构误差最小化来训练网络，使得两者尽可能逼近，从而学习具有相同数据分布特征样本的内部表示。经典自编码器包含编码器和解码器两部分。其中，编码器将输入向量编码成隐变量，解码器将隐变量解码为与输入向量维度相同的输出向量。自动编码器的总体过程可描述为：编码过程：（）（）解码过程：（）（）式中：为输入数据；为编码器的输出向量；、分别为编码和解码权值；、分别为编码和解码偏置；为编码器的非线形激活函数，典型的有、等；为解码器的激活函数；为解码器的输出向量。自编

7、码器的损失函数定义如下：（）稀疏自编码器在经典自编码器的基础上，增加对神经元的稀疏性约束得到稀疏自编码器。它使少数神经元处于活跃状态，而大多数节点处于抑制状态，目的在于保证模型重建精度的基础上，提高模型对噪声的鲁棒性。使用神经元的输出作为神经元的激活度，即对于隐藏层的第个神经元，其激活度为：（）（）（）式中：（）为第个输入样本；为第个神经元的权重矩阵；为第个神经元的偏置；为激活函数。则对于个样本，在隐藏层神经元上的平均激活值为：?（）（）第卷第期何淼等：基于深度自编码器的钻井工况智能识别研究为了使隐藏层满足稀疏性要求，需满足公式：?（）式中：为稀疏性参数。散度能很好地度量两个分布之间的

8、差异。当?时，（?）；当?与差距较大时，散度会随着它们的差值增大而递增。因此平均激活值要尽可能接近稀疏性参数，才能有效约束神经元的激活度。所以采用基于散度的方法进行惩罚，其表达式如下：（?）?（）?（）（）将其作为惩罚项添加到损失函数中，因此稀疏自编码器的损失函数为：（?）（）式中：为惩罚项的权重系数。深度自编码器深度自编码器是一个由多层自编码器逐层堆叠形成的深度神经网络。对神经网络结构而言，适当地增加隐藏层数量，模型的学习能力和泛化能力在大样本的情况下会优于浅层神经网络。笔者搭建的深度自编码器网络结构如图所示。第一层为输入层，中间为稀疏自编码器、经典自编码器、稀疏自编码器交叉构成的三层隐

9、藏层，第五层为输出层。深度自编码器的训练流程由两部分组成，分层贪婪预训练和整体微调。详细步骤如下：）分层贪婪预训练。开始给定初始输入数据，采用无监督方式训练第一层自编码器，使重构误差达到阈值之内；然后把前一层自编码器的输出作为后一层自编码器的输入，采用同样的方法训练，直至完成所有自编码器的预训练。其中在训练第层自编码器时，冻结第（）层自编码器的参数，最终实现每一层的单独训练。）整体微调。网络模型在分层贪婪预训练后，设定了每层的初始权值和偏置，然后使用误差后向传播算法（，）得到各神经层单元的偏差信号，再利用梯度下降算法对模型参数进行调节。注：为输入向量；、分别为第一、第二、第三层稀疏自编码器的编

10、码向量；?、?均为网络的解码向量。图深度自编码器结构图长江大学学报（自然科学版）年月钻井工况实时识别模型构建特征工程在机器学习应用中，特征工程位于“数据”和“模型”之间，是机器学习应用的基础。它的作用是将原始数据空间转换到新的特征空间。在新的特征空间中，模型能够更好地学习数据中的规律，从而提高模型的性能。机器学习应用的上限由数据和特征决定，而模型和算法只是不断迫近这个上限。使用我国南海乐东区块四口高温高压井（井、井、井、井）的二开和三开数据作为原始数据集。选取的特征参数包括钻头测量深度、钻井液池体积、大钩载荷、转盘扭矩、立管压力、钻压、转速、钻井液入口流量、机械钻速。选取井钻进工况下某个

11、时间段的组数据作参数趋势图和相关性热力图，如图和图。从特征参数趋势图中可知，在钻进工况下，各参数在一定时间窗口内的波动趋势具有相似性，例如钻井液入口流量、大钩载荷、转速和立管压力都是在一段时间内保持平稳，然后突降，再突增保持平稳。机械钻速、钻压、转盘扭矩呈现略微上下波动的趋势。钻头测量深度则呈现上升的趋势。仅有钻井液池体积的波动趋势较不规律。从相关性热力图中可知，钻井液入口流量、大钩载荷、转速和立管压力的相关性较强，这点也可以从图中看出。然后依据钻井日志以及对参数趋势的研究分析，对原始数据集进行工况标注，将数据分别标注为钻进、循环、起钻、下钻、倒划眼、接单根、钻水泥塞、短起下钻和复杂情况九类

12、。再将原始数据集划分为训练集、验证集、测试集，选取井和井两口井的录井数据作为训练集，剩下的作为验证集，将井和井的录井数据作为模型的测试集，合计共组数据。训练集、验证集和测试集的总体占比分别为、。图特征参数趋势图不同工况下，钻井参数的数值可能一样，但是其变化趋势会有所差别，因此数据的变化趋势是表征工况的关键点。但是单一时间点的数据很难去表征变化趋势，同时工况识别的时间间隔不能太长，否则无法提高钻井时效。从输入特征要表现数据的变化趋势以及工况识别的实时性角度出发，采用滑动时间窗口算法对输入数据进行预处理，如图所示。将时间段划分为更小的时间窗口，每过一个时间片段，将时间窗口往右滑动

13、一格。首先将时间窗口内的数据进行归一化，获得的参数矩阵，然后再将参数矩阵转化为的一维向量，作为模型的输入特征。如此一来，输入特征既包含了数据波动趋势的信息，同时每过一个时间点，都可进行工况识别，符合实时性的要求。整体模型的框架结构利用的开源人工神经网络库建立基于深度自编码器的钻井工况识别模型。识别模型的整体架构如图所示。针对种工况训练集，分别训练其对应的自编码器模型。自编码器能学习同种第卷第期何淼等：基于深度自编码器的钻井工况智能识别研究注：为钻井液池体积；为大钩载荷；为钻头测量深度；为钻压；为机械钻速；为转盘扭矩；为转速；为钻井液入口流量；为立管压力。图特征参数相关性热力图图滑动

14、时间窗口示意图工况在一定时间窗口内的数据分布特征的内部表示。训练完成的模型能够很好地重构同一种工况的输入特征，而对于不同工况的输入特征，自编码器模型难以较好地重构输入。因此重构误差能衡量新样本与训练数据之间的数据分布差异。当新数据分别输入到种工况的模型中，计算并得到重构误差，最后将该时间点的工况归类为重构误差最小的自编码器模型所对应的工况类别。计算结果与分析模型的训练与验证模型训练过程中采用迭代优化算法。是一种替换传统随机梯度下降算法的一阶优化算法，基于训练数据迭代地更新神经网络权重。它利用梯度的一阶距估计和二阶矩估计动态调整每个参数的学习率。其首要优点在于通过偏置校正后的每一次迭代，学

15、习率都有明确的范围，使得参数变动比较稳定。首先计算梯度，其计算公式如下：长江大学学报（自然科学版）年月图工况识别模型架构图（）（）式中：（）为带有参数的随机目标函数，一般指损失函数；为目标函数（）对求导所得梯度；为迭代步数。然后计算梯度的一阶距和二阶距，其计算公式如下：（）（）（）（）式中：为一阶距衰减系数；为二阶距衰减系数。接着计算的偏置矫正?和的偏置矫正?，计算公式如下：?（）?（）式中：为的次方；为的次方。最后将?和?带入式（），就可得到下降的梯度：?（）式中：为学习率；为误差项。首先利用训练集得到神经网络中各层的权值矩阵等参数，然后使用验证集对隐藏层神经元个数、激活函数等超参数进行优

16、选。常规的激活函数有、。不同的激活函数会对结果产生很大的影响。在其他参数固定的情况下，经过反复训练计算，对激活函数组合进行优选，最后删除识别准确率较差的组合。表展现了识别效果较好的激活函数组合。结果表明三层隐藏层和一层输出层的激活函数依次采用、的识别效果最好。第卷第期何淼等：基于深度自编码器的钻井工况智能识别研究表激活函数组合准确率结果对比激活函数组合钻进识别率循环识别率起钻识别率下钻识别率倒划眼识别率接单根识别率钻水泥塞识别率短起下钻识别率复杂情况识别率、最终的调优参数如表所示。训练网络时，需要将所有数据迭代训练多次才能使网络收敛。表示训练轮次，一个轮次指将所有训练数据输入进网络完成一次向前计算及反向传播。随着轮次的增加，网络中权值更新迭代的次数增加，模型从开始的欠拟合，慢慢进入最佳拟合，最后过拟合。对于不同数据集来说，最佳的是不同的。在实际训练中，将训练数据分成多个批次对模型进行训练。表示批尺寸，即每个批次的数据量大小。表模型的调优参数参数钻进循环起钻下钻倒划眼接单根钻水泥塞短起下钻复杂情况第一层隐藏层神经元个数第二层隐藏层神经元个数第三层隐藏层神经元个数激

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？