收藏 分享(赏)

基于差分和局部离群因子的遥测数据野值检测方法_鄢青青.pdf

上传人:哎呦****中 文档编号:2251144 上传时间:2023-05-04 格式:PDF 页数:8 大小:1.24MB
下载 相关 举报
基于差分和局部离群因子的遥测数据野值检测方法_鄢青青.pdf_第1页
第1页 / 共8页
基于差分和局部离群因子的遥测数据野值检测方法_鄢青青.pdf_第2页
第2页 / 共8页
基于差分和局部离群因子的遥测数据野值检测方法_鄢青青.pdf_第3页
第3页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、2023年第1期 导 弹 与 航 天 运 载 技 术(中英文)No.1 2023 总第392期 MISSILES AND SPACE VEHICLES Sum No.392 收稿日期:2020-04-01;修回日期:2020-12-25 文章编号:2097-1974(2023)01-0093-08 DOI:10.7654/j.issn.2097-1974.20230119 基于差分和局部离群因子的遥测数据野值检测方法 鄢青青,肖 锋,柳振民(西昌卫星发射中心,西昌,615000)摘要:为提高火箭飞行遥测数据孤立型野值检测的准确性和检测效率,针对遥测数据变化范围大、分布参数未知、数据量大等特点,

2、提出一种基于差分和局部离群因子的野值检测算法,通过一阶差分使遥测数据中快速变化段的突变点与正常幅值点区分开,然后去除差分值中的重复值以降低计算复杂度,并将数据点的重叠度引入局部离群因子的计算中以快速筛选出局部离群程度较大的突变点,最后利用突变点的差分值符号特征来辨识野值点。通过实例应用分析,验证了该算法的高效性和准确性。关键词:遥测数据;野值;差分;局部离群因子 中图分类号:V557+.3 文献标识码:A Outlier Detection Method for Telemetry Data based on Difference and Local Outlier Factor Yan Qi

3、ng-qing,Xiao Feng,Liu Zhen-min(Xichang Satellite Launch Center,Xichang,615000)Abstract:In order to improve the accuracy and efficiency of isolated outlier detection for rocket flight telemetry data,an outlier detection algorithm based on difference and local outlier factor(DIFF-LOF)is proposed,aimin

4、g at the characteristics of large variation range,unknown distribution parameters and large amount of data of telemetry data.Through the first-order difference,DIFF-LOF distinguishes the mutation point of the fast change section from the normal amplitude point in the telemetry data,and then removes

5、the duplicate value in the difference value to reduce the computational complexity.DIFF-LOF introduces the overlap degree of data points into the calculation of local outlier factor to quickly screen out the mutation points with larger local outlier degree,and uses the difference symbolic features o

6、f mutation points to identify outliers.The efficiency and accuracy of the algorithm are verified by an example.Key words:telemetry data;outliers;differences;local outlier factor 0 引 言 野值是指偏离被测信号变化规律1或被测目标真值2的数据点,通常是由数据采集、处理、传输中的误差或干扰引起的,与被测系统的正常或异常行为均无关,在文献中又称为异常点、粗大误差、离群(点)值、孤立(点)值、跳点7等37。野值的检测与清除是

7、运载火箭飞行遥测数据预处理中的重要环节,关系到后续数据分析挖掘、故障排查与处置的效率和成功率。遥测数据中,连续的多个偏离正常变化规律的值(成片野值或斑点野值)6,8,通常表明被测系统、数据处理、传输通道或被测环境存在异常,而这些都是遥测数据分析的重要方面,故该类值一般不能作为无关数据直接剔除,下文中的野值仅指单个、相对邻近点孤立的偏离点。目前野值检测的常用方法有阈值法、残差法、滤波法、假设检验法、距离或聚类法、学习算法等6,7,912。局部离群因子(Local Outlier Factor,LOF)是 Breunig等13提出的一种基于密度的局部野值检测算法中用于衡量数据点在其k-邻域内的离群

8、程度的参数,目前已广泛应用于各领域的各种野值检测算法中。如 Mei Bai等14提出一种基于数据网格化分割的大数据分布式野值检测算法;Meiling Liu15,16提出一种局部野值挖掘的聚类算法;Zhiping Xie 等17在医疗保险数据的挖掘中提出一种改进的 LOF 野值检测算法。针对遥测数据的变化范围大、分布参数未知、单次数据量大等特点,提出一种基于差分和 LOF 的野值检测算法,通过对遥 导 弹 与 航 天 运 载 技 术(中英文)2023年 94 测数据进行一阶差分、去除差分值中的重复值、计算LOF,并通过差分值符号特征辨识野值点。通过实例分析,验证了该算法的准确性和检测效率。1

9、遥测数据的野值检测问题 遥测数据反映着火箭飞行中自身与内外环境、传输通道的状态。随着近年来中国航天发射量的大幅增长,传统的人工分析模式已不能满足大量遥测数据的深度挖掘利用在效率、覆盖率、准确率等方面的需求。自动化甚至智能化的数据分析对数据预处理提出了更高的要求,尤其是对野值检测效率和准确度的要求,关系更高效的现代化数据处理手段能否真正应用于实际工作。1.1 遥测数据的分布特性 遥测数据是通过传感器采集并传输的信号,虽然它是对同一对象同一参数的持续多次测量结果,但被测对象的状态是随时间变化的,且在对象状态正常的情况下可在一定程度上预知其变化趋势。如果将测量值()X t视为真实值(趋势项),()s

10、 t与随机误差()d t的叠加()()()X ts td t=+,则真实值()s t就是随时间变化且根据精确模型可预知其变化趋势的部分,属于非随机确定变量,即在测量对象的精确模型和参数初始值已知的情况下可直接计算得出每时刻的值。假设随机误差()d t为零均值高斯噪声,服从正态分布()20,N,显然真实值()s t与()d t相互独立,但()s t不服从正态分布,二者相加后()()()X ts td t=+服从正态分布()2,N s,其均值为()s t,分布函数如下18:()()2221e2X sf X-=(1)遥测数据为采样频率固定的数字信号,其离散时间序列可用,1,2,iiiXsdiN=+=

11、X来表示。由正态分布性质可知,正态变量iX在以位置is为中心,3为半径的对称区间内取值的概率达 99.74%,其中标准差由下式计算:()211NiiiXsN=-(2)但绝大部分遥测数据的被测对象的精确模型并非都确知,因此is也并不能由初值和模型准确预测,即绝大部分遥测数据的分布参数未知,无法直接采用3法(莱特准则)剔除野值。1.2 遥测数据的幅值特性 遥测数据是被测对象状态的反映,因此根据不同时段被测对象的状态不同而可能变化范围较大。如果被测对象状态变化频繁,则可能会导致遥测数据出现频繁起伏。同时由于被测对象工作状态转换,使遥测数据中常包含几类幅值瞬时变化较快、与相邻点差异较大的突变点:极值点

12、、阶跃点、单调区间分界点、野值点等。这类突变点的变化特征为在数个单位时间内数据的幅值呈现大幅度变化,与相邻点(包括快速变化中的其他点)的差值绝对值相对其他时段的相邻点差值绝对值较大,在差分后易被误识别为野值点。另外,由于遥测数据的采样频率较高,使单个遥测数据序列的数据点数量巨大(一般为 600050 000 个数据点),对需要遍历所有数据的算法而言计算复杂度()()o f N较大。综上所述,遥测数据的变化幅度大、数据量也大,使得在野值检测过程中区分正常值与野值和提高检测效率的难度较大。1.3 遥测数据的野值特性 遥测数据的野值特性如图 1 所示。a)野值的幅值特征 b)分层值跳变 图1 遥测数

13、据的野值特性 Fig.1 Outlier Characteristics of Telemetry Data 遥测数据的野值是指幅值和变化规律均偏离两侧相邻点较大的孤立数据点,其幅值大小不确定(甚至可能与数据序列中某些正常值相当),幅值偏离两侧相邻点的方向也不确定(大于或小于两侧相邻点),不连 鄢青青等 基于差分和局部离群因子的遥测数据野值检测方法 95第1期 续出现但出现的次数不确定,见图 1a。若野值与正常值相当,使用3准则、聚类分析、LOF 等基于数据幅值的方法进行检测时误判率较高。并且幅值瞬时变化较快、与相邻点差异较大的极值点、阶跃点、单调区间分界点在使用残差法或差分法时也可能形成与野

14、值点相似的孤立值,从而将这几类突变点误判为野值。另外,根据数字信号原理,传感器输出的连续电压或电流值被划分为21n-个等长区间,其二进制取值在()0 21n-间变化,其中n代表数字信号的采样精度。如果实际信号电压或电流值在2个区间之间频繁波动,则会导致输出值在两个邻近示值之间频繁跳变,通常称为分层值跳变。这类跳变是对被测对象真实状态的记录,不属于噪声,也不应作为野值处理,见图 1b。遥测数据中的野值大小、数量、方向不确定,也容易与其他类型的突变点混淆,在检测过程中还要排除分层值的干扰。2 基于差分值局部离群因子的野值检测方法 2.1 遥测数据一阶差分及去重 由于遥测数据的采样频率较高,在其缓变

15、时段,单位采样时间间隔的数据,幅值变化程度很小。因此遥测数据进行一阶前向差分后,差分值除瞬时变化较快的突变点附近外,其他缓变区间的幅值相对大幅缩小。如此可将包括野值在内的少量突变点与数据序列中大部分正常缓变值区分开来。遥测数据序列X的一阶前向差分序列表示为iX=X,其中,11,2,1iiiXXXiN+=-=-,(3)由数字信号原理可知,遥测数据幅值以分层值为单位量,iX应是分层值fd的非负整数倍。而在缓变时段,相邻采样间隔内的幅值变化量大多为 0 或几个分层值,因此差分序列X中存在大量相同值。由于遥测数据野值检测时只关注幅值间的差异性,而不关注幅值出现时刻,即 2 个数据点的距离为幅值之差,如

16、果存在大量相同值,在计算 LOF 时会导致局部密度为无限大。为避免无法计算 LOF,同时降低计算的时间复杂度,需对差分序列中的重复值进行清除和标记。重复值进行清除和标记后差分序列变为 iY=Y,,1,i jNY,ijYY,iB=B,其中,iB表示iY的重复度,NY为序列Y的元素个数,221nNN-Y。2.2 局部离群因子 对上述差分序列X,利用去重后的差分序列Y及其重叠度B计算局部离群因子 LOF19:a)两点iY与jY之间的距离。(),ijd i jYY=-(4)b)iY的k-距离。iY的k-距离为()kdi,其中21kN-。因iY X,iY的k-距离为X中与iY的距离最小的第k个点(包括值与iY重叠的1iB-个重叠点)。c)k-距离邻域。k-距离邻域是所有与iY的距离小于等于()kdi的X中点的集合(包括值与iY相同的1iB-个重叠点),记为()kNi,()jkYNi,()(),kd i jdi,邻域内的数据点数量()()jkkjYNiNiB=,()kNik。d)可达距()r,di j。()()()()r,max,kdi jdid j i=(5)因差值在分层值以内不视为野值,故对每

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 专业资料 > 其它

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2