1、DOI:1019392/jcnki1671-7341202308022EM 算法对不完全数据下指数分布的参数估计张梦琇石河子大学理学院新疆石河子832000摘要:收集、整理数据是处理统计问题的关键,由于测量精度不高,调查者在收集处理数据时经常会出现测量不精准的情况,调查者收集到的数据大多是缺失数据,该篇文章以不完全信息下的数据作为研究对象,结合单参数指数分布,探究不完全信息数据下指数分布的参数估计问题。首先,文章采用 EM 算法对带有不完全信息数据下的指数分布进行参数估计,通过建立似然函数,推导出带有不完全信息下的指数分布参数的迭代表达式。随后,利用 软件进行随机模拟试验,分别考虑不全数据所服
2、从的分布的参数相同和不同的两个角度。最后,随机模拟的结果表明,迭代式的精度较高,并且提高了计算速度。关键词:不完全信息数据;指数分布;似然函数;EM 算法;软件中图分类号:O212文献标识码:A1 概述数据的收集是处理统计问题的关键,由于测量精度不高,调查者在收集处理数据时经常会出现测量不精准的情况,调查者收集到的数据大多是缺失数据,对于缺失数据而言,调查者经常或遇到这样两类数据,一类数据是指在设定的时间间隔之前,研究对象就已经结束工作,这种数据称之为删失数据;另一类数据是指在设定的时间间隔之后,该研究对象仍持续地进行这种操作,此种数据被称之为截断数据。研究生活中的自然现象需要数据的支撑,采用
3、最多的数据类型为左截断右删失数据,本文以左截断右删失数据为基础数据类出,主要处理不完全信息数据,它包括截断数据、删失数据以及既截断又删失数据。本文以带有不完全信息下的数据作为研究对象,结合特定的分布,探究不完全信息数据下指数分布的参数估计问题。指数分布是一种常用的连续型寿命函数,被广泛应用于检测电子元件的使用寿命。文献 1-3 探究了带有缺失数据下指数分布的参数估计,这三篇文章从不同的数据类型,不同参数下的指数分布研究指数分布的参数估计;文献 4-6 研究了左截断右删失下不同分布多变点模型的Bayes 估计,这三篇文章主要研究指数分布的贝叶斯估计;文献 7 主要研究了带有不完全信息的不同分布下
4、的变点模型,作者主要研究其他分布下的不完全数据的参数估计问题;文献 8 利用 EM 算法研究了指数分布的参数估计,作者研究完全数据下的指数分布。本篇文章将 EM 算法与不完全数据结合到一起,考察指数分布参数变点在数据不完整的情况下的迭代表达式。首先,利用 EM 算法对不完全信息下的指数分布的参数进行了研究与分析,随后,利用 软件进行数值模拟,检验不完全信息下的指数分布参数的迭代式的精确性。最后,随机模拟的结果表明,迭代式的精度较高,并且提高了计算速度。2 连续型寿命 IICT(带有不完全信息随机截尾试验andom censoring test with incomplete informati
5、on,简称IICT)假设产品寿命X1,X2,是相互独立同分布的连续型随机变量序列,其分布函数为 F(x;)=P(Xix),概率密度函数为 f(x;),其中,为未知参数。又设Y1,Y2,是相互独立的、取值为非负整数的连续型随机变量序列,分布函数分别为G1(y),G2(y),概率密度函数为g1(y),g2(y),且gi(y)与未知参数 无关。假定随机变量序列Xi与 Yi是相互独立的。为了估计连续型随机序列的未知参数,选取样本容量为 n 的样本作为观测数集,则这 n 个样本的观测数据记为 Zi,1 i n如下:(1)当XiYi时,分为以下两种情况:Xi以概率ai立即显示,此时,记为Zi=Xi;Xi以
6、概率 1ai不被显示,此时,记为Zi=Yi,其中,ai称为失效显示概率,即:P(Zi=Xi|XiYi)=aiP(Zi=Yi|XiYi)=1ai(2)当XiYi时,取Zi=min(Xi,Yi),即Zi=Yi。为了研究方便,本文引入如下的示性变量i,i,i=1,2,n。若XiYi成立,则i=1;否则,当XiYi成立,则i=0;若XiYi并且Xi未被显示,i=0;其他情况,i=1。所以,有Zi=Xi,i=1,i=1;Yi,i=1,i=0;Yi,i=0,(i=1)下面计算各种情况下的概率:当i=1,i=1 时,有P(Zi=zi,i=1,i=1)=f(zi;)G(zi)ai;当i=1,i=0时,有 P(
7、Zi=zi,i=1,i=0)=F(zi;)g(zi)(1ai)m();当i=0(i=1)时,有 P(Zi=zi,i=0)=F(zi;)g(zi)。46电子信息科技风 2023 年 3 月假定,前n1个样本数据满足XiYi(i=1,2,n1),剩余n2个样本数据满足XiYi成立,所以,该似然函数为:L()=n1i=1f(zi;)G(zi)aiiini=n1+1F(zi;)g(zi)1i m()n1=A n1i=1f(zi;)iini=n1+1F(zi;)1i m()n1其中,A=n1i=1G(zi)aiiini=n1+1g(zi)1i下面对于满足i=1,i=0 的缺失观测数据,进行增添数据,对增
8、添后的新数据重新建立似然函数,若第 i 个样本的寿命值没有被显示,(i=1,2,n1),添加的观测值为(ti,i,i),其中ti=xiyi=min(xi,yi),i=I(xiyi),i=1,2,n1;示性变量i表示,若满足XiYi,并且Xi未被显示i=0;其他情况,i=1,i=1,2,n1。添加缺损数据后,所得到的似然函数为:L()=An1i=1f(zi;)ii ni=n1+1F(zi;)1iBn1i=1f(ti;)ii其中:A=n1i=1G(zi)aiiini=n1+1g(zi)1iB=n1i=1G(ti)aiii3 IICT 下指数分布的参数估计若 X 服从参数为 的指数分布,指数分布的似
9、然函数为:L(,Y,Z,T,|)n1i=1(ezi)ii ni=n1+1(ezi)1in1i=1(eti)iin1i=1ii+n1i=1iien1i=1ziiini=n1+1zi(1i)n1i=1tiii(1)利用统计思想,建立似然函数,对不完全数据进行统计分布。对于不完全信息下的指数分布的数据而言,似然函数的概率密度核的形式只与未知参数有关,则(1)表示不完全信息下的指数分布的似然函数的概率密度核的形式。由于i,i表示当 i=1,2,n 的示性变量,所以,当 i=1,2,n1时,有i=i,i=i。(2)将(2)式代入(1)式,替换掉(1)中的i和i,i=1,2,n1。所以:L()n1i=1i
10、i+n1i=1iien1i=1ziiini=n1+1zi(1i)n1i=1tiii n1i=12iien1i=1ziiini=n1+1zi(1i)n1i=1tiii假设(i)为第 i 步的初始迭代值,利用 EM 算法,根据带有不完全信息的指数分布的迭代式计算,每次迭代可得到一个新的估计值(i+1)。下面我们采用 EM 算法对不完全信息下的指数分布数据进行优化处理:EM 算法是一种迭代优化策略,由于它的计算方法中每一次迭代都分两步,其中一个为期望步(E 步),另一个为极大步(M 步),所以算法被称为 EM 算法(Expectation-Maximization Algorithm),最初是为了解
11、决数据缺失情况下(包含隐变量)的参数估计问题。其基本思想是:首先根据已经给出的观测数据,估计出模型参数的值(初始化);然后再依据上一步估计出的参数值估计缺失数据的值,再根据估计出的缺失数据加上之前已经观测到的数据重新再对参数值进行估计,然后反复迭代,直至最后收敛,迭代结束。操作步骤具体如下:(1)E 步:L(|(i),Y,Z,)=Etln n1i=12iien1i=1ziiini=n1+1zi(1i)n1i=1tiii|(i),Y,Z,=Et(n1i=12ii)lnn1i=1ziii+ni=n1+1zi(1 i)+n1i=1tiii|(i),Y,Z,=(ln)n1i=12iin1i=1ziii
12、ni=n1+1zi(1 i)n1i=1iiEt(ti|(i),Y,Z,)接下来,计算Ti的密度函数:P(ti=x,i=1,i=0)=P(Xi=x,Yix)(1ai)=f(x;)G(x)(1ai)=+0f(x;)G(x)(1ai)dx所以,有Et(ti|(i),Y,Z)=+0 xf(x;)G(x)(1ai)dx=+0 x(i)e(i)xG(x)(1ai)dx。那么,L(|(i),Y,Z)=lnn1i=12 ii()n1i=1ziiin1i=1ii+0 x(i)e(i)xG(x)(1ai)dxni=n1+1zi(1i)56科技风 2023 年 3 月电子信息(2)M 步:L=1n1i=12 ii(
13、)n1i=1ziiin1i=1ii+0 x(i)e(i)xG(x)(1 ai)dx ni=n1+1zi(1 i)=0即(i+1)=n1i=12 iin1i=1ziii+n1i=1ii+0 x(i)e(i)xG(x)(1 ai)dx+ni=n1+1zi(1 i)。(3)若带有不完全信息的数据也服从指数分布,即 GE(1),那么,有:+0 x(i)e(i)xG(x)(1ai)dx=(i)(1ai)+0 x e(1+(i)xdx=(i)(1ai)(1+(i)+0 xd e(i)+1)x=(i)(1ai)1+(i)(x e(i)+1)x|+0+0e(i)+1)xdx)=(i)(1ai)(1+(i)2+
14、0e(i)+1)xd(i)+1)=(i)(1ai)(1+(i)2所以,(i+1)=n1i=12 iin1i=1ziii+n1i=1ii(i)(1 ai)(1+(i)2+ni=n1+1zi(1 i)。(3)通过假设数据服从的分布类型,利用 EM 算法建立不完全数据下指数分布的参数估计的迭代公式,如(3)式所示。4 数值模拟为了检验不完全数据下指数分布的参数估计的迭代公式的收敛速度和收敛精度,利用 软件进行数值模拟。分别从不完全数据所服从指数分布的参数相同和参数不同的两个角度进行考虑。从而验证不完全数据下指数分布的参数估计的迭代公式的收敛速度和收敛精度。41 不同参数下的指数分布利用 软件,结合
15、EM 算法,对指数分布的未知参数,进行统计推断,我们主要进行五组试验,假定不完全信息的分布是参数1=2 恒定不变,每组都进行 n=100 的随机模拟试验,具体情况如下表所示:表 1 n=100,1=2 时,参数 的模拟结果组数参数 采用 EM 算法的估计值 迭代次数1100100018562821501500120330320020007184324250250001022952752750004242通过上表,我们能发现利用 EM 算法,对指数分布进行数值模拟,参数 的精度较高,误差限在104,即误差较小,迭代次数在 2745 之间。因此,采用 EM 算法对未知参数进行检验是可取的。42 不
16、同参数下的不完全信息利用 软件,结合 EM 算法,对指数分布的未知参数,进行统计推断,我们主要进行五组试验,假定缺损数据的分布是参数(i)=2 恒定,每组进行 n=100 的随机模拟试验,具体情况如下表所示:表 2 n=100,(i)=2 时,参数 的模拟结果组数 不完全信息的分布的参数 采用 EM 算法的估计值 迭代次数1100101287311521501501243520320020018795184250251487243252752750124811通过上表,可以看出,不完全信息的分布下的指数分布的参数收敛较快,但精度不高,精度为102。利用不完全信息下的指数分布的迭代公式的次数减少了,迭代速度较相同参数的不完全信息下的指数分布的情况下减少了迭代时间,加快了迭代速度。总之,对于不完全信息下的指数分布参数的迭代式,收敛速度快,精度较高,利用 EM 算法处理不完全信息下的指数分布是可取的。参考文献:1 何朝兵熵损失下随机截尾情形指数分布参数的Bayes 估计J 辽宁工程技术大学学报(自然科学版)2016,35(12):1533-1536 2 杨冬霞,周菊玲,董翠玲复合 Mline