基于Rubin因果模型的处...变量与协变量的交互效应估计

资源描述

1、第 41 卷第 1 期2023 年 1 月广西师范大学学报(自然科学版)Journal of Guangxi Normal University(Natural Science Edition)Vol.41 No.1Jan.2023DOI:10.16088/j.issn.1001-6600.2022010502http:杜洁瑞,崔霞,李元.基于 Rubin 因果模型的处理变量与协变量的交互效应估计J.广西师范大学学报(自然科学版),2023,41(1):122-130.DU J R,CUI X,LI Y.Estimating interaction effects between a tr

2、eatment and covariates using the Rubin causal modelJ.Journal ofGuangxi Normal University(Natural Science Edition),2023,41(1):122-130.?基于 Rubin 因果模型的处理变量与协变量的交互效应估计杜洁瑞,崔霞,李元(广州大学经济与统计学院,广东广州 510006)摘要:借鉴 Rubin 因果模型,使用似然方法测量依从者平均因果效应中的参数,进而得到依从子群体中处理变量与协变量的交互效应。模拟研究表明所提出的方法表现良好。将该方法运用在 2013 年全国农村

3、住户与外来务工住户的收入调查数据中,使用明瑟收入函数法评估外出务工对依从子群体的教育收益率的影响。实证结果表明:外出务工使得依从子群体的教育收益率提升 3.22 个百分点。关键词:交互效应;依从者;平均因果效应;似然函数;外出务工;教育收益率中图分类号:O212 文献标志码:A 文章编号:1001-6600(2023)01-0122-09处理变量与协变量的交互效应是指协变量对于响应变量的影响在处理变量发生变化时也会随之变化,可以把它解释为调节关系,用响应变量、协变量与调节变量来说明,即当协变量对响应变量的影响取决于处理变量(调节变量)时,处理变量与协变量就存在交互效应。在一些特定场合下的观察性

4、研究中,确定处理变量与协变量的交互效应具有重要应用价值。例如,尽管对于整个研究群体,处理方案与安慰剂没有区别,但对于子群体可能会起作用,这可以给个性化医疗、个性化投资等提供理论支撑。在实践中可以先定义不同的亚组,如使用性别或是否接受过高等教育等进行分类,然后基于亚组分析比较不同亚组中的估计结果。然而,在观察性研究中,一般很难将整个研究群体随机地分为不同亚组,正如在本文实证中所描述,无法将农村人口随机地分配为农村住户与外来务工住户。由于随机化这一金标准失效,从而可能使得模型的估计结果偏倚严重,例如,在医学研究中亚组分析经常导致假阳性结果1。针对非随机问题,可以借鉴 Rubin 因果模型,使用主分

5、层的潜在框架来解决,这在观察性研究中也是相对成熟且比较流行的方法2。由于只有依从子群体中分配的处理与实际接受的处理是相同的,而基于分配是随机假设,因此可以得到依从者的平均因果效应。因为只能得到子群体的平均处理效应,所以又被称为局部平均处理效应(local average treatment effect,简称 LATE)。已有大量文献研究依从者的平均因果效应。Angrist 等3在一些简单且易于解释的假设下,估计依从者的平均因果效应。Imbens 等4基于分组数据给出不依从数据下的似然函数,并采用贝叶斯方法给出依从者的平均因果效应。Frangakis 等2提出主分层潜在框架,其主要思想是将研究

6、对象分为潜在亚层。Abadie 等5在考虑协变量情况下,对模型进行估计,并给出渐近性质。Barnard 等6、Zigler 等7在主分层潜在框架下,使用关键协变量预测研究对象的潜在分层。Baiocchia 等8对不依从数据的方法做了全面总结。国内也有很多学者对依从者平均因果效应进行研究。陈永杰等9介绍了随机对照试验中不依从数据的主分层分析方法,并给出使用主分层应注意的问题。许颖玉等10在假设响应变量连续的情况下,研究依从者平均因果效应。苗旺等11对因果推断的统计方法做了一个综述。尽管基于亚组分析得到处理变量与协变量的交互效应经常遇到非随机的情形,但尚未有文献使用主收稿日期:2022-01-05

7、修回日期:2022-02-28基金项目:国家自然科学基金(11871173,11731015)通信作者:崔霞(1980),女,广东广州人,广州大学教授,博导。E-mail:http:分层潜在框架来解决这一问题。借鉴 Rubin 因果模型,本文使用主分层潜在框架,首先采用协变量预测研究对象的潜在分层;然后再基于不同的亚组数据,使用似然方法构建模型,从而得到依从子群体中处理变量与协变量的交互效应。该方法不仅简单易于解释,而且模拟结果表现良好。本文进一步将该方法运用在 2013 年全国农村住户与外来务工住户的收入调查数据中,并使用明瑟收入函数法评估外出务工对依从子群体的教育收益率的影响。实证结果表

8、明:外出务工使得依从子群体的教育收益率提升了 3.22 个百分点。1 模型与假设1.1 主分层与可识别性记 Z 为二元分组变量,Zi=1 表示个体 i 被分配到实验组,Zi=0 表示个体 i 被分配到对照组,并记=P(Zi=1)。记Di(z)为潜在的二元处理变量,表明个体 i 在分组 Z=z 时实际接受的处理。同理,Yi(z)为潜在的响应变量,表明个体 i 在分组 Z=z 时的结果变量。需要强调的是Diz()和Yiz()是个体 i 在 Z=z 的潜在结果,而Di和Yi为个体 i 的实际观测结果。本文所涉及到的样本数据集为 Di,Zi,Xi,Yi(),i=1,n。本文采用 Frangakis 等

9、2提出的主分层框架来分析因果效应。记 Ui为个体 i 的潜在结果,令Ui=c,若Di(0)=0 且Di(1)=1,n,若Di(0)=0 且Di(1)=1,a,若Di(0)=0 且Di(1)=1,d,若Di(0)=0 且Di(1)=1,|式中 c、n、a、d 分别代表个体 i 是依从者(complier)、从不接受者(never-taker)、总是接受者(always-taker)以及反对者(defier)。研究对象为CACE(x)=E Y(1)-Y(0)|U=c,X=x(),(1)式中:Y(1)表示 Z=1 的潜在响应变量,Y(0)表示 Z=0 的潜在响应变量。为了保证 CACE(x)的可识别

10、性,本文给出以下 7 个基本假设条件:假设 1(SUTVA,stable unit treatment value assumption)若Zi=Zi,则Di(Zi)=Di(Zi);若Zi=Zi且Di=Di,则Yi(Zi,Di)=Yi(Zi,Di)。假设 1 表示个体间不存在关联性。假设 2(强可忽略性)Z 是完全随机的,这表明 Z 与潜在结果 Y z(),D z()独立,也与协变量 X 独立。记=P Z=1|Y z(),D z(),X=P(Z=1)。假设3(单调性)P Di(1)Di(0)=1。单调性假设表示反对者不存在。记u=P(U=u),式中,u=a、n、c、d,所以有d=0。假设4 给

12、ngrist 等3、Imbens 等4、Chen 等12用了假设 1 与假设 3;Ding 等13、Park 等14用了假设 2;Frangakis 等2、Zigler 等7以及 Baiocchia 等8用了假设 4、假设 5 与假设 6。假设 7 是为了简化模型。1.2 不依从数据下的似然函数容易知道,处理变量 D 的取值依赖于(Z,U)。因此,基于假设 2 与假设 7,给定协变量 X 条件下,321广西师范大学学报(自然科学版),2023,41(1)Y,Z,U()的密度函数可以描述为p y,z,u|x()=p z|x()p u|z,x()p y|z,u,x()=p z()p u|x()p

16、,Di()=0,1()payi|xi;a,a()i:Zi,Di()=0,0()nn+cpnyi|xi;n,n()+cn+cp0cyi|xi;0c,0c()()。基于上文推导,依从者的平均因果效应可以表示为CACE x;1c,1c,0c,0c()=E Y|X=x;1c,1c()-E Y|X=x;0c,0c()。(3)2 估计方法假设已有样本集(Di,Zi,Yi,Xi),i=1,n,基于全似然函数得到所有参数的估计难以处理,本文采用以下 3 个步骤得到参数估计。2.1 估计、ax()、n(x)令 nz=#i:Zi=z,则容易知道=n1/n。对 n(x)与 a(x)的估计,采用的方案与 Frangakis 等2、Zigler 等7、Baiocchia 等8类似,令n(X)=P U=n|X=x()=1-(TnX),a(X)=P U=a|X=x()=1-n(X)(TaX),c(X)=P U=c|X=x()=1-a(X)-n(X)。|(4)421http:式中(x)是标准正态分布。因为分组变量 Z 是随机的,所以基于 Z=1 的样本,极大化得到的似然函数L1n()=i:Zi=1(TnXi)Di1-

展开阅读全文

基于Rubin因果模型的处...变量与协变量的交互效应估计_杜洁瑞.pdf