1、收稿日期:2023-02-21;修订日期:2023-04-19作者简介:李珊珊(1985),女,硕士,副教授,主要从事应用概率统计的教学与研究。基金项目:河套学院科学技术研究项目(HYZY202107)。通信作者:刘 迪(1990),女,硕士,讲师,主要从事计算机科学与技术的教学与研究。E-mail:463532318 。第 41 卷 第 4 期2023 年 8 月江 西 科 学JIANGXI SCIENCEVol.41 No.4Aug.2023 doi:10.13990/j.issn1001-3679.2023.04.003Eichhorn 模型中缺失数据的一类比插补方法李珊珊1,2,刘 迪
2、1(1.河套学院数学与计算机系,015000,内蒙古,巴彦淖尔;2.内蒙古工业大学理学院,010051,呼和浩特)摘要:对于数量特征敏感问题调查的项目无回答问题,恰当地使用辅助信息可以提高调查效率。已有多种利用辅助信息的比插补方法,提出一类简单、实用的比插补方法,构造最优估计量,对总体敏感指标进行估计,得出了估计量的均方方差,通过理论比较和数值模拟得出提出的估计量的效率优于传统的估计量。关键词:项目无回答;比率插补;Eichhorn 模型;缺失数据中图分类号:O212.4 文献标识码:A 文章编号:1001-3679(2023)04-630-05A Class Ratio Imputation
3、 Method for Missing Data in the Eichhorn ModelLI Shanshan1,2,LIU Di1(1.Department of Physiology,Hetao College,015000,Bayannur,Inner Mongolia,PRC;2.College of Sciences,Inner Mongolia University of Technology,010051,Hohhot,PRC)Abstract:The appropriate use of auxiliary information can improve the effic
4、iency of the survey for i-tem non-response questions on quantitative characteristic sensitive surveys.There are several meth-ods of ratio imputation using auxiliary information,and to summarise some of them,a simple and practical type of ratio imputation method is proposed to estimate the sensitive
5、indicators of the popu-lation,and the mean squared error of the estimated quantity is derived,and the efficiency of the proposed estimator is higher than that of the traditional estimator through theoretical comparison and numerical simulation.Key words:item-nonresponse;ratio imputation;Eichhorn mod
6、el;missing data0 引言在统计调查中,针对数量特征敏感性问题,如隐性收入、偷漏税金额等,由于这类问题常涉及到被调查者的隐私,常采用随机化回答模型,设法消除被调查者的顾虑,使其能如实回答。这在一定程度上提高了被调查者参与调查的配合度,提高回答率,但即使采用了该模型,由于被调查者拒绝回答,受访对象不匹配,工作失误等原因,数据缺失现象是普遍存在的。造成缺失数据的原因之一是调查中的项目无回答。项目无回答是指被调查者只提供了部分信息,另一部分信息缺失。处理无回答现象通常利用回答值和辅助变量得出比率估计量对缺失数据进行插补,从而提高调查结果的准确性。针对项目无回答的比率插补法,国外许多学者进
7、行了广泛讨论和改进。例如 1994 年 Lee等1对缺失数据提出了比率插补方法。2000 年Singh 和 Horn2利用均值与比率插补的线性组合对缺失数据进行插补。2008 年 Toutenburg 和Srivastava3同样讨论了比率插补估计量的性质。Singh4发展了 Toutenburg 提出的方法,总结出一种新的比率插补方法。国内学者田兵等5利用辅助变量均值、变异系数、偏度、峰度提出了新的比插补方法。完颜华6在缺失随机化回答时,采用比插补方法处理缺失数据,得到了敏感指标总体均值估计量。金勇进等7在著作缺失数据的统计处理中,对利用辅助信息构造插补值进行了介绍。2008 年 Yan8将
8、 Lee 提出的比率插补方法应用在 Eichhorn9模型中处理缺失数据问题。本文将 Singh 等10中的插补方法应用在具有项目无回答数据的 Eichhorn 模型中,讨论了 2 种估计量的估计效率,并与文献8中的方法进行比较。1 Eichhorn 模型Eichhorn 和 Hayre 介绍了扰动随机化模型:设敏感变量 X 的均值 X-,方差 Var(X)=2X,假设扰动变量 S 的分布已知,其均值为 S,方差为Var(S)=2S,按照简单有放回的抽样方式抽取 n个样本,第 i 个回答值为 zi=XiSi,均值 z-,敏感变量均值 X-的估计量为 X-E=Z-S,其方差为 Var(X-E)=
9、1n(2X+C2S(2X+X-2),C2S=2S2S。2 比插补方法回顾文献8提出的插补方法:按简单随机不放回的方式从总体 N 中抽取容量为 n 的样本,辅助变量 T 可由直接回答得出,回答值为 t1,t2,tn,t-n=1nni=1ti。样本包括 2 个集合:大小为 r 的回答指标集合 R 和另一个大小为 n-r 的缺失数据指标集合 RC,得到的完全回答值为(z1,t1),(z2,t2),(zr,tr),t-r=1rri=1ti。当无回答的值被舍弃,习惯上用 z-=1rri=1zi估计总体均值 X-,当无回答的值不被舍弃,采用一些插补方法,完全的数 据 集 表 示 为y1,y2,yn,其 中
10、yi=zi,i Rzi,i RC,总体均值 X-由 y-=1nni=1yi=1n(iRzi+iRCzi)来估计,其中 zi=(jRzj/jRtj)ti,提出的估计量为:z-Y=z-t-rt-n。定理 1:z-Y的一阶近似均方误差为MSE(z-Y)=X-2C2Sr(1+C2X)+(1r-1N)C2X-1rNC2SC2X+(1r-1n)C2T-2(1r-1n)XTCXCT.(1)其中,S2U=1N-1Ni=1(Ui-U-)2,U=X,T,SXT=1N-1Ni=1(Xi-X-)(Ti-T-),XT=SXTSXST,CU=SU/U-,U=X,T,CU表示变量的变异系数。3 提出比插补方法在 Singh
11、 和 Priyanka 提出方法的基础上,构造关于 X-的估计量,当辅助变量 T-已知的情况下,有以下 2 种形式:z-d1=z-(A+C)T-+fBt-r(A+fB)T-+Ct-r ,z-d2=z-(A+C)T-+fBt-n(A+fB)T-+Ct-n 其中 A=(d-1)(d-2),B=(d-1)(d-4),C=(d-2)(d-3)(d-4),d 0。表 1d=1,2,3,4 时包含的估计量d1234z-d1z-T-t-nz-t-rT-z-NT-nt-rT-N-n()T-z-z-d2z-T-t-nz-t-rT-z-NT-nt-nN-n()T-z-引入记号 z-=X-(1+1),x-=X-(1
12、+2),t-r=136第 4 期 李珊珊等:Eichhorn 模型中缺失数据的一类比插补方法T-(1+3),t-n=T-(1+4),1=fBA+fB+C,2=CA+fB+C,=1-2,可得 E(1)=E(2)=E(3)=E(4)=0,E(13)=(1r-1N)XTCXCT,E(23)=(1r-1N)C2T,E(24)=(1n-1N)C2T,E(34)=(1n-1N)C2T,V(1)=C2Sr(1+C2X)+(1r-1N)C2X-1rNC2SC2X。定理 2:z-d1的一阶近似均方误差为MSE(z-d1)=X-2C2Sr(1+C2X)+(1r-1N)C2X-1rNC2SC2X+2(1r-1N)X
13、TCXCT+2(1r-1N)C2T(2)证明:z-d1=X-(1+1)(1+13)(1+23)-1=X-(1+1)(1+13)(1-23+2223+)MSE(z-d1)=E(z-d1-X-)2X-2E1+(1-2)32 X-2E21+(1-2)223+2(1-2)13 X-2V(1)+2(1-2)(1r-1N)XTCXCT+(1-2)2(1r-1N)C2T X-2V(1)+2(1r-1N)XTCXCT+2(1r-1N)C2T。定理 3:z-d1的一阶近似最优均方误差记为MSE(z-d1)min,MSE(z-d1)min=MSE(z-d1)=X-2C2Sr(1+C2X)+(1r-1N)C2X-1
14、rNC2SC2X-(1r-1N)(XTCX)2.(3)证明:对 z-d1的均方误差关于 求偏导即MSE(z-d1)=0,则 =fB-CA+fB+C=-XTCXCT,把 代入到式(2)可得:MSE(z-d1)=X-2C2Sr(1+C2X)+(1r-1N)C2X-1rNC2SC2X-(1r-1N)(XTCX)2。定理 4:z-d2的一阶近似均方误差为MSE(z-d2)=X-2C2Sr(1+C2X)+(1r-1N)C2X-1rNC2SC2X+2(1n-1N)XTCXCT+2(1n-1N)C2T。证明:z-d2=X-(1+1)(1+14)(1+24)-1=X-(1+1)(1+14)(1-24+2224
15、+)MSE(z-d2)=E(z-d2-X-)2X-2E1+(1-2)42 X-2E21+(1-2)224+2(1-2)14 X-2V(1)+2(1-2)(1n-1N)XTCXCT+(1-2)2(1n-1N)C2TX-2V(1)+2(1n-1N)XTCXCT+2(1n-1N)C2T。定理 5:z-d2的一阶近似最优均方误差记为MSE(z-d2)min,MSE(z-d2)min=MSE(z-d2)=X-2C2Sr(1+C2X)+(1r-1N)C2X-1rNC2SC2X-(1n-1N)(XTCX)2(4)4 效率比较4.1 比较 z-与 z-Y,z-d1,z-d2的一阶近似均方误差z-的均方误差与估
16、计量 z-Y、z-d1和 z-d2的一阶近似均方误差的差为(z-,z-Y)=V(z-)-MSE(z-Y)=X-2(1r-1n)CT(2XTCX-CT);(z-,z-d1)=V(z-)-MSE(z-d1)=X-2(1r-1N)(XTCX)2;236江 西 科 学2023 年第 41 卷(z-,z-d2)=V(z-)-MSE(z-d2)=X-2(1n-1N)(XTCX)2。满足条件2XT CX/CT,MSE(z-Y)V(z-),同时注意到提出方法的 MSE(z-d1)与 MSE(z-d2)都优于估计量 z-。4.2 比较 z-Y,z-d1 与 z-d2的一阶近似均方误差比较 MSE(z-Y)和 MSE(z-d1)的 大 小,即(z-Y,z-d1)=MSE(z-Y)-MSE(z-d1)=X-2(1r-1n)C2T-2(1r-1n)XTCXCT+(1r-1N)(XTCX)2=X-2(1r-1N)(CT-XTCX)2 0 估计量 z-d1的均方误差优于 z-Y的均方误差,而估计量 z-d2的均方误差不一定优于 z-Y的均方误差。(z-d1,z-d2)=MSE(z-d1)-MSE(z-d2)=X-