1、2023 年 第 5 期 化学工程与装备 2023 年 5 月 Chemical Engineering&Equipment 105 机采数字化实时数据选值方法设想 机采数字化实时数据选值方法设想 韦 娅(大庆油田第七采油厂,黑龙江 大庆 163000)摘 要:摘 要:在科技创新和数字化变革的大背景下,机采管理作为一项日常工作,在传统模式下数据采集周期长,发现问题滞后,处理问题迟钝的弊端日益突出,为提升机采管理水平,某油田积极响应“以数字化转型驱动油气发展”的目标,全面推广数字化建设。在数字化油田建设过程中,面对庞浩繁杂的数据,机采井实时数据的处理成为亟待解决的问题,本文依据统计学规律,对繁杂
2、冗长的实时数据进行异常值的识别及修正,对机采数字化实时数据的选值方法进行探讨和设想,以期形成统一的数据选值标准,为后期建立合适的数据模型、优化数据管理结构奠定基础,最终实现输出端呈现可实时查询采用的直观、简洁、有效数据,提升机采管理水平。关键词:关键词:数字化;异常值;统计分析;箱线图;机采管理 前 言 前 言 某油田自1979年投入开发,目前共计采油井4000余口,每年需人工采集数据 212.85 万余次,数据滞后 2.7 天,耗费大量前线人力资源的同时,降低了机采措施的及时性和准确性,为此,某油田大力推进数字化改革,目前已在 A 区 1班和 B 区 2 班 344 口油井上安装了载荷传感器
3、、无线压变及RTU 等数字化采集设备,实现了电流电压等参数的实时采集,目前数据的采集传输频次为 1 次/10min,单井日传输数据 2448 条,平均异常数据 112 个,占总数的 4.57%,由于数据量大,干扰信息较多。在使用数据时,每项参数都需要对 100 余条数据进行人工甄别及判断,并主观选择一组数据采用,降低了数据可靠性,增加了机采管理难度,此外,数据冗余造成的传输困难和数据错误,降低了用户体验,背离了智能化油田的初衷。因此,本文针对该厂 344 口数字化油井实时数据进行分析处理,同时对其选值方法进行探讨和设想,以期在确定实时数据选值标准后,通过软件编程处理,使输出端呈现可实时查询采用
4、的直观有效数据,进一步提升机采分析相关数据的及时性及准确性,为该厂数字化油田建设提供有益补充。1 数据预处理 1 数据预处理 在数据采集和传输过程是一种通过将事物属性利用一定的转换技术将其转换为电信号,然后再将电信号转换为数字化的行为。在多次转换中会因为转换技术客观原因或主观原因的影响,不可避免的引入错误点、冗余点等信息,为了其减少对特征数据的干扰,保证传输数据的稳定和准确,我们常常需要对原始数据进行处理,才能获得最具有代表性的数据集合。1.1 简单统计分析 采用简单的统计学分析对数据进行预处理,通过众数、中位数、平均值和标准差来对数据的取值范围和分布区间等情况有个预期的理解和估计。以 1#井
5、和 2#井为例,分别对两口井的7951组原始数据进行初步统计,统计结果如表1-1所示。表 1-1 原始数据简单统计分析结果 表 1-1 原始数据简单统计分析结果 井号 冲程 冲次 上行 电流 下行 电流 最大 载荷 最小 载荷 有功 功率 无功 功率 功率 因数 众数 2.36 4.23 -9999-9999-9999-9999-9999-9999-9999 中位数 2.36 4.23 26.91 29.87 37.65 20.66 4.05 18.09 0.22 平均值-455.4 -453.5 -645.5-642.7-635.7-650.8-453.3 -440.7-457.4 1#井(
6、7953)标准差 2090.0 2090.4 2506.7 2507.5 2509.4 2505.3 2090.5 2093.2 2089.5 众数 2.27 3.08-9999-9999-9999-9999-9999-9999 0.79 中位数 2.27 3.08 8.83 23.23 48.12 15.08 3.6 2.85 0.77 平均值-490.9 -489.9 -734.0-721.2-697.3-726.9-488.3 -490.1-492.4 2#井(7951)标准差 2165.2 2165.5 2623.0 2626.6 2633.4 2625.0 2165.8 2165.4
7、 2164.9 众数:指在统计分布上具有明显集中趋势点的数值,即在一组数据中出现次数最多的数。中位数:又称中值,是按顺序排列的一组数据中居于中间位置的数。DOI:10.19566/35-1285/tq.2023.05.060106 韦 娅:机采数字化实时数据选值方法设想 平均数:表示一组数据集中趋势的量数,指在一组数据中所有数据之和再除以这组数据的个数。它是反映数据集中趋势的一项指标。标准差:也成标准偏差,可反映数据组内个体间的离散程度。1.2 错误点的识别 对上述统计结果进行分析,发现因错误点-9999 的计入,除中位数以外的统计结果与实际情况都有很大的偏差。对油井的各个参数横向对比分析,及
8、大量数据观察统计发现,油井数字化实时数据采集只出现单一错误点-9999,且该错误点大都有一一对应关系,或者集中出现在电流及载荷传输点。1.3 错误点的修正 常见的错误点修正方法有替代法和剔除法,依次采用以下方法对数据进行处理,分别得到不同的统计结果。(1)中位数替代法 这种偏离较大的数值严重影响了数据算法及统计结果,导致数据不准确,对比两口井的众数、中位数、平均值及标准差,不难发现错误点-9999 对中位数影响较小,将其替换成中位数,再次进行数据统计(如表 1-2)。表 1-2 修正错误点统计结果 表 1-2 修正错误点统计结果 井号 冲程 冲次 上行 电流 下行 电流 最大 载荷 最小 载荷
9、 有功 功率 无功 功率 功率 因数 众数 2.36 4.23 26.91 29.87 37.65 20.66 4.05 18.09 0.22 中位数 2.36 4.23 26.91 29.87 37.65 20.66 4.05 18.09 0.22 平均值 2.3 4.3 26.4 29.3 36.9 20.6 4.5 17.7 0.2 1#井(7953)标准差 0.4 0.7 4.1 4.6 2.9 1.0 2.3 2.9 0.1 众数 2.27 3.08 8.83 23.23 48.12 15.08 3.6 2.85 0.77 中位数 2.27 3.08 8.83 23.23 48.12
10、 15.08 3.6 2.85 0.77 平均值 2.2 3.2 8.7 22.5 48.2 16.2 4.9 3.0 0.6 2#井(7951)标准差 0.5 1.0 2.1 4.9 3.9 4.3 4.2 1.9 0.3 (2)剔除法 修正错误点后再次经过计算,得到一组新的数据,修正后的数据大致符合实际参数范围,适用于原始数据中出现个别极端异常值或原众数与中位数近似的情况,但由于别极端异常值本身偏度较大,若原始数据中出现连续性且较多别错误点时,使用中位数替代会严重影响到该组数据的众数。因此,在这种情况下,我们考虑采用剔除错误点的方式来进行数据统计(表 1-3)。表 1-3 剔除错误点统计结
11、果 表 1-3 剔除错误点统计结果 井号 冲程 冲次 上行 电流 下行 电流 最大 载荷 最小 载荷 有功 功率 无功 功率 功率 因数 众数 2.36 4.23 0.12 0.12 37.68 20.81 0.03 0.08 0.22 中位数 2.36 4.23 27.01 29.99 37.82 20.7 4.17 18.15 0.22 平均值 2.3 4.3 26.3 29.3 36.8 20.6 4.5 17.7 0.2 1#井(7953)标准差 0.4 0.7 4.2 4.8 3.0 1.0 2.4 2.9 0.1 众数 2.27 3.08 0.14 0.16 48.37 14.9
12、0.02 0.11 0.79 中位数 2.27 3.08 8.93 23.45 48.29 15.41 3.78 2.95 0.78 平均值 2.2 3.2 8.6 22.4 48.2 16.3 5.0 3.0 0.6 2#井(7951)标准差 0.5 1.0 2.2 5.1 4.0 4.5 4.4 1.9 0.3 横向对比多口油井,发现该规律同样适用,根据数据统计结果分析,我们采用剔除错误点的方法对数据预处理。2 机采数字化实时数据选值方法设想 2 机采数字化实时数据选值方法设想 本文经过对多组数据的综合分析,优选出箱线图法对油井实时数据进行异常值的识别和修正,从而获得各参数选值。在此基础上
13、,我们立足现有样本特点,发散思维,对关于机采数字化实时数据选值工作进行如下设想:(1)动态数据选值 油田实际生产中,机采井连续运行时,对各参数的采集频次需求远远小于 1 次/10Min,庞杂的数据反而加大了用户甄别有效数据的难度,因此,设想对数据进行分组,如 8h,即 48 条数据为一组,终端显示单井单日为 3 条数据。韦 娅:机采数字化实时数据选值方法设想 107 同时,为避免错误数据的影响,保证这 3 条数据的合理性和准确性,在数据到达终端之前,采用箱线图法分别对每组数据进行异常值的识别,平均值替代后再求平均值,得到的数据为最终输出的数据。关于分组,有两种方法(如图 2-1)。一是按照时间
14、 8h为一组,该方法简单方便,对设备要求较低,但可能存在数据不连续的问题;二是滚动分组,采用递推平均滤波的方式处理数据,即每新增一条数据,就要在始端丢掉一条数据,要保证时间跨度始终为 8h,新数据根据箱线图法选择丢弃或者上组平均值替代的办法,该方法可获取较为准确的瞬时数据,很好地保证了数据的连续性,但对设备要求较高,造价较高。图 2-1 分组方法图示 图 2-1 分组方法图示 (2)基于异常值的预警机制 在箱线图法确定区间上下限的时候,我们提到了异常值的识别和修正,但在实际生产中,异常值并不是完全无用的数据,某种程度上来说,它可以很好更好地反映油井运行的情况,找出包含油井故障和采集设备故障的异
15、常点,对推进油井数字化具有重大意义。一般来说,异常值主要有两大类,跳跃点极大的错误点和异常值,其中,异常值可分为单点异常值和连续异常值,分析异常值出现的原因和范围,建立各参数及各种情况的异常模型,形成相应的预警机制,也是机采井数字化的重要组成部分。(3)输出终端界面的优化 由于机采井采集端数据采集和传输频次为 1 次/10Min,而机采井日常管理并不需要这么多繁杂冗余的数据,因此,可以考虑将数据分析放到后台,终端显示屏只保留机采管理需要的数据指标,并降低数据刷新频次,降低分析设备配置要求,但可以相应的增加数据分析图表,加大数据可视化力度,优化终端界面。3 几点认识 3 几点认识(1)由于四分位
16、数具有一定的耐抗性,多达 25%的数据可以变得任意远而不会很大地扰动四分位数,所以箱形图识别异常值的结果比较客观,本文优选箱形图法识别异常值。(2)基于箱形图法确定的机采井数字化实时数据选值范围,可对各参数异常值进行分析,建立相应的异常模型,形成合理的预警机制。(3)输出终端应简化查询界面,隐藏海量数据分析,确保数据的准确度和可靠性,建立可视化图表,提升机采管理水平。参考文献 参考文献 1 赵永胜,王有民.油田动态数据的成熟度及其处理方法J.大庆石油地质与开发,1994(02):38-41+76.2 王群.数字化背景下机采井工况实时预警技术研究J.化学工程与装备,2019(12):90-91.3 张琛.浅析油田数字化中现代管理方法的运用J.中国管理信息化,2018,21(14):50-51.4 李伟.论油田数字化出现的问题及解决方法J.化工管理,2014(30):170.5 杨伟民,杨光熙.浅析油田大数据的高效分析处理方法研究以大庆油田为例J.信息系统工程,2020(06):10-11.6 刘超,张岁盟,王兴,等.试论数字化油田基层管理的方式方法J.中国石油和化工标准与质量,2013,