经济面板数据缺失值插补的算...程序包“linput”开发

资源描述

1、第4 3卷第4期湖北工程学院学报VO L.4 3 NO.4 2 0 2 3年7月J OUR NA L O F HU B E I E N G I N E E R I N G UN I V E R S I T YJ U L.2 0 2 3 经济面板数据缺失值插补的算法设计与R语言程序包“l i n p u t”开发杜云晗(四川省人力资源和社会保障科学研究所,四川成都6 1 0 0 1 5)摘要:利用年均增长率估算的基本原理,开发出了一种处理经济面板数据缺失值的R语言程序包“l i n-p u t”。“l i n p u t”包能够自动扩充个体缺失的面板数据,同时提供了内插法和外推法两种缺失值处

2、理选择,新生成的向量将自动加入临时数据集作为新的一列,实际操作中可直接基于临时数据集进行数据的统计分析与描述。“l i n p u t”包有利于通过简单快速的算法为研究人员生成各类平衡面板数据集,从而避免了统计分析中因缺失值问题产生的样本容量过少等问题。关键词:缺失值;年均增长率;平衡面板数据中图分类号:F 0 6 4.1 文献标识码:A 文章编号:2 0 9 5 4 8 2 4(2 0 2 3)0 4 0 0 6 5 0 7 所谓面板数据(p a n e ld a t a)是指在时间序列上取多个截面,且在每个截面上同时选取若干样本所构成的样本数据。相比截面数据和时间序列数据,面板数据可从时间

3、和个体构成的二维空间反映变量的变化特征和规律。在建模过程中,这一优势主要表现在它能够控制个体的异质性;能够给出更多的信息,减少回归变量之间的多重共线性;增加自由度从而提高参数估计的有效性;以及能够构造更复杂的行为模型等。自上世纪七十年代“因果推断革命”以来,面板数据被广泛应用于各类经济问题的建模实践中,如研究就业、消费结构、经济增长、技术进步、税收政策问题等等。一、文献综述面板数据方法的使用在国内外已经十分普遍,特别是近二十多年来,随着宏微观数据可得性的提高和计算技术的发展,中国经济学界将面板数据方法和中国数据相结合,检验特定理论以及预测是否能够在数据中得到支持,评估公共政策效果,以及识别因

4、果关系。具体而言,国内外学术界关于面板数据及方法的应用主要包括如下几类:(1)劳动经济学,主要关注最低工资、社会保障、教育回报、收入差距等问题(A n g r i s ta n dK r u e g e r,1 9 9 1;Q i a n,2 0 0 8;陈斌开等,2 0 1 0;程令国和张晔,2 0 1 2;马双等,2 0 1 2;S a e ze ta l.,2 0 1 9)1-6;(2)公共经济学,主要关注税收与企业绩效、公共政策与劳动供给、社会福利制度与家庭福利等(Z i l i a ka n d K n i e s n e r,2 0 0 5;F r e

5、 e d m a n,2 0 1 3;申广军等,2 0 1 6;叶菁菁等,2 0 1 7;C h e ne ta l.,2 0 2 2)7-1 1;(3)发展经济学,主要关注贸易开发、经济增长、反贫困等诸多领域的问题(M e l i t z,2 0 0 3;A u t o re ta l.,2 0 1 3;B a n e r j e ee t a l.,2 0 1 5;徐舒等,2 0 2 0)1 2-1 5;(4)公司金融,这方面研究集中在企业资金筹划、公司行为和企业内部收入不平等(G i v o l ye ta l.,1 9 9 2;王跃堂等,2 0 1 0;G a g g la n

6、 dW r i g h t,2 0 1 7;张克中等,2 0 2 1)1 6-1 9;(5)区域与城市经济学,运用地区面板数据和相应方法,研究地区经济增长、环境污染、城市与交通建设的经济后果等问题(G r o s s m a na n dK r u e g e r,1 9 9 5;A l f a r oe t a l.,2 0 0 4;R e z z aa n dA l i e f,2 0 1 3;胡煜和收稿日期:2 0 2 3 0 5 1 6 基金项目:国家社会科学基金项目(1 8 X J L 0 0 6)。作者简介:杜云晗(1 9 8 7-),男,四川遂宁人,四川省人力资源和社会保障科学

7、研究所助理研究员,经济学博士。56李红昌,2 0 1 5;刘勇政和李岩,2 0 1 7;吕朝凤和余啸,2 0 2 0)2 0-2 5。面板数据及方法在新政治经济学、社会学、人口学等诸多领域都有广泛应用,已经成为当代量化社会科学方法的重要组成部分。面板数据及其估计方法已经发展较为纯熟,从当前研究趋势来看,传统面板数据方法与离散选择模型、分位数回归、动态面板方法、非参数计量的相互结合,是面板数据方法理论和应用发展的大势所趋(C a r r o,2 0 0 7;C h e n,2 0 1 0;C h e ne ta l.,2 0 2 1)2 6-2 8。但是,面板数据应用及估计在很大程度上受到数

8、据生成过程的影响,数据缺失、数据量、数据分布和自选择问题都会影响到面板数据的估计结果。目前,关于如何处理数据缺失的文献较少,连玉君团队开发出了t s f i l l命令和i p o l a t e命令以更好地处理数据集缺失的情况。建立在不同算法基础上的命令也会产生不同的数据处理结果,不同算法各有优劣。本文旨在利用R语言编程环境,开发一种建立在年均增长率估算基础上的面板数据缺失值处理程序包,供各学科科学研究使用。二、研究设计 (一)数据处理算法假设一个面板数据中存在一个含缺失值的经济变量P V,共有n年,第i年至第j年间的数值缺失,即两者之间有j-i-1个缺失值,第i年的变量值为P Vi,第j年

9、的变量值为P Vj。那么可用下式估算年均增长率:G r o w t h=j-i-1P VjP Vi-1P Vj-P ViP Vi1j-i-1(1)(二)R语言封装算法原理R语言封装的算法原理是对存在缺失值的面板数据中,按顺序年份正数出现的第一个非缺失值,以及倒数出现的第一个非缺失值进行求年均增长率,然后用这个增长率与各年缺失值的前一个非缺失值进行运算得到用于填补缺失值的数值,即先基于第一个非空值的i位数。计算其顺数下一个数即第i+1位的估计值,接着调用循环代码基于第i+1位估计值,计算第i+2位估计值,以此类推。本程序包最多可以计算中间有1 0个空值的情形,如需拓展功能还需要自行修改源代码。图

10、1 核心算法原理图(三)R语言封装流程图2 程序设计流程面板数据缺失值插补包封装为R包“l i n-p u t”,目前最新版为3.0.6,已传到G i t h u b代码仓库,可在R语言编译器中运行代码块a进行下载:代码块ai f(i s.e l e m e n t(l i n p u t,i n s t a l l e d.p a c k a g e s()66杜云晗连享会.S t a t a:缺失值的填充和补漏J/O L.2 0 2 0-0 7-0 2,h t t p s:/w w w.l i a n x h.c n/n e w s/4 4 0 4 0 5 2 e 7

11、 b 3 3 6.h t m l。,1)=F A L S E)i f(i s.e l e m e n t(d e v t o o l s,i n s t a l l e d.p a c k a g e s(),1)=F A L S E)i n s t a l l.p a c k a g e s(“d e v t o o l s”)l i b r a r y(d e v t o o l s)e l s ei f(i s.e l e m e n t(d e v t o o l s,i n s t a l l e d.p a c k a g e s(),1)=T RU E)l i b r a r y

12、(d e v t o o l s)i n s t a l l_g i t h u b(“y o u n g y a o g u a i/l i n p u t/l i n p u t 3.0.6”)l i b r a r y(l i n p u t)h e l p(“l i n p u t”)e l s e i f(i s.e l e m e n t(l i n p u t,i n s t a l l e d.p a c k a-g e s(),1)=T RU E)l i b r a r y(l i n p u t)h e l p(“l i n p u t”)自行查看包内封装的R函数文件。(四

13、)相关包的加载与数据处理判断读入面板数据集后,调用l i n p u t函数并分别加载数据集d、面板个体变量p、时间变量y、作为处理对象的经济变量x和数据处理方法m。数据处理方法选择内插法,则将m赋值为0,选择外推法则将m赋值为1。L i n p u t函数体内部大量使用了t i d y v e r s e包的函数,因此加入判断是否安装了t i d y v e r s e包的代码块,如果未安装则会自动安装,核心代码如下:代码块bl i n p u t-f u n c t i o n(d,p,y,x,m)a t t r_t e m p-a t t r i b u t e s(x)e x t r

14、a p o l a t e-mi f(e x t r a p o l a t e!=0&e x t r a p o l a t e!=1)c a t(“E r r o r T h em e t h o dp a r a m e t e r i n p u t e dm u s tb e0o r1!“)i f(e x t r a p o l a t e=0|e x t r a p o l a t e=1)i f(i s.e l e m e n t(t i d y v e r s e,i n s t a l l e d.p a c k a g e s(),1)=F A L S E)i n s t

15、a l l.p a c k a g e s(“t i d y v e r s e”)e l s ei f(i s.e l e m e n t(t i d y v e r s e,i n s t a l l e d.p a c k a g e s(),1)=T RU E)c a t(“N o t e T h i sp a c k a g e#L i n e a r_i n p u t e d_D u y u n h a n#n e e d t h ep a c k a g e#t i d y v e r s e#s”,“n”,“s u p p o r t i n g,n o wt h ep a

16、c k a g e t i d y v e r s e h a sa l r e a d yb e e n i n s t a l l e d.”,“n”)l i b r a r y(t i d y v e r s e)l i b r a r y(p l y r)o r i g i n a l_d a t a-dt e s t_d a t a 2-do r i g i n a l_d a t a$i n d i v i d u a l-p其中原始数据集存放在临时数据集t e s t_d a-t a 2中。(五)面板数据缺失变量扩张通常进行经济学研究时,对原始数据的搜集和整理会面临个体缺失的情况,而非仅仅缺失数值点(表1)。对此,加入扩张变量的代码块,将变量按面板数据的结构化特征进行补齐,为后续估算数据填补做好准备。表1 个体缺失的面板数据个体I D时点I D数值I DC a s e 11 9 9 9V a l u e 1C a s e 22 0 0 0V a l u e 2C a s e 52 0 0 4V a l u e 5C a s e 62 0 0 5V a l u e 6 核心

展开阅读全文

经济面板数据缺失值插补的算...程序包“linput”开发_杜云晗.pdf