ImageVerifierCode 换一换
格式:PDF , 页数:7 ,大小:1.66MB ,
资源ID:2571311      下载积分:10 积分
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝扫码支付 微信扫码支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wnwk.com/docdown/2571311.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(经济面板数据缺失值插补的算...程序包“linput”开发_杜云晗.pdf)为本站会员(哎呦****中)主动上传,蜗牛文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知蜗牛文库(发送邮件至admin@wnwk.com或直接QQ联系客服),我们立即给予删除!

经济面板数据缺失值插补的算...程序包“linput”开发_杜云晗.pdf

1、第4 3卷第4期湖北工程学院学报VO L.4 3 NO.4 2 0 2 3年7月J OUR NA L O F HU B E I E N G I N E E R I N G UN I V E R S I T YJ U L.2 0 2 3 经济面板数据缺失值插补的算法设计与R语言程序包“l i n p u t”开发杜云晗(四川省人力资源和社会保障科学研究所,四川 成都6 1 0 0 1 5)摘 要:利用年均增长率估算的基本原理,开发出了一种处理经济面板数据缺失值的R语言程序包“l i n-p u t”。“l i n p u t”包能够自动扩充个体缺失的面板数据,同时提供了内插法和外推法两种缺失值处

2、理选择,新生成的向量将自动加入临时数据集作为新的一列,实际操作中可直接基于临时数据集进行数据的统计分析与描述。“l i n p u t”包有利于通过简单快速的算法为研究人员生成各类平衡面板数据集,从而避免了统计分析中因缺失值问题产生的样本容量过少等问题。关键词:缺失值;年均增长率;平衡面板数据中图分类号:F 0 6 4.1 文献标识码:A 文章编号:2 0 9 5 4 8 2 4(2 0 2 3)0 4 0 0 6 5 0 7 所谓面板数据(p a n e ld a t a)是指在时间序列上取多个截面,且在每个截面上同时选取若干样本所构成的样本数据。相比截面数据和时间序列数据,面板数据可从时间

3、和个体构成的二维空间反映变量的变化特征和规律。在建模过程中,这一优势主要表现在它能够控制个体的异质性;能够给出更多的信息,减少回归变量之间的多重共线性;增加自由度从而提高参数估计的有效性;以及能够构造更复杂的行为模型等。自上世纪七十年代“因果推断革命”以来,面板数据被广泛应用于各类经济问题的建模实践中,如研究就业、消费结构、经济增长、技术进步、税收政策问题等等。一、文献综述 面板数据方法的使用在国内外已经十分普遍,特别是近二十多年来,随着宏微观数据可得性的提高和计算技术的发展,中国经济学界将面板数据方法和中国数据相结合,检验特定理论以及预测是否能够在数据中得到支持,评估公共政策效果,以及识别因

4、果关系。具体而言,国内外学术界关于面板数据及方法的应用主要包括如下几类:(1)劳动经济学,主要关注最低工资、社会保障、教 育 回 报、收 入 差 距 等 问 题(A n g r i s ta n dK r u e g e r,1 9 9 1;Q i a n,2 0 0 8;陈斌开等,2 0 1 0;程令国 和 张 晔,2 0 1 2;马 双 等,2 0 1 2;S a e ze ta l.,2 0 1 9)1-6;(2)公共经济学,主要关注税收与企业绩效、公共政策与劳动供给、社会福利制度与家庭福利 等(Z i l i a ka n d K n i e s n e r,2 0 0 5;F r e

5、 e d m a n,2 0 1 3;申广军 等,2 0 1 6;叶菁菁等,2 0 1 7;C h e ne ta l.,2 0 2 2)7-1 1;(3)发展经济学,主要关注贸易开发、经济增长、反贫困等诸多领域的问题(M e l i t z,2 0 0 3;A u t o re ta l.,2 0 1 3;B a n e r j e ee t a l.,2 0 1 5;徐舒等,2 0 2 0)1 2-1 5;(4)公司金融,这方面研究集中在企业资金筹划、公司行为和企业内部收入不平等(G i v o l ye ta l.,1 9 9 2;王 跃 堂 等,2 0 1 0;G a g g la n

6、 dW r i g h t,2 0 1 7;张克中等,2 0 2 1)1 6-1 9;(5)区域与城市经济学,运用地区面板数据和相应方法,研究地区经济增长、环境污染、城市与交通建设的经济后果等问题(G r o s s m a na n dK r u e g e r,1 9 9 5;A l f a r oe t a l.,2 0 0 4;R e z z aa n dA l i e f,2 0 1 3;胡煜和 收稿日期:2 0 2 3 0 5 1 6 基金项目:国家社会科学基金项目(1 8 X J L 0 0 6)。作者简介:杜云晗(1 9 8 7-),男,四川遂宁人,四川省人力资源和社会保障科学

7、研究所助理研究员,经济学博士。56李红昌,2 0 1 5;刘勇政和李岩,2 0 1 7;吕朝凤和余啸,2 0 2 0)2 0-2 5。面板数据及方法在新政治经济学、社会学、人口学等诸多领域都有广泛应用,已经成为当代量化社会科学方法的重要组成部分。面板数据及其估计方法已经发展较为纯熟,从当前研究趋势来看,传统面板数据方法与离散选择模型、分位数回归、动态面板方法、非参数计量的相互结合,是面板数据方法理论和应用发展的大势 所 趋(C a r r o,2 0 0 7;C h e n,2 0 1 0;C h e ne ta l.,2 0 2 1)2 6-2 8。但是,面板数据应用及估计在很大程度上受到数

8、据生成过程的影响,数据缺失、数据量、数据分布和自选择问题都会影响到面板数据的估计结果。目前,关于如何处理数据缺失的文献较少,连玉君团队开发出了t s f i l l命令和i p o l a t e命令以更好地处理数据集缺失的情况。建立在不同算法基础上的命令也会产生不同的数据处理结果,不同算法各有优劣。本文旨在利用R语言编程环境,开发一种建立在年均增长率估算基础上的面板数据缺失值处理程序包,供各学科科学研究使用。二、研究设计 (一)数据处理算法假设一个面板数据中存在一个含缺失值的经济变量P V,共有n年,第i年至第j年间的数值缺失,即两者之间有j-i-1个缺失值,第i年的变量值为P Vi,第j年

9、的变量值为P Vj。那么可用下式估算年均增长率:G r o w t h=j-i-1P VjP Vi-1P Vj-P ViP Vi1j-i-1(1)(二)R语言封装算法原理R语言封装的算法原理是对存在缺失值的面板数据中,按顺序年份正数出现的第一个非缺失值,以及倒数出现的第一个非缺失值进行求年均增长率,然后用这个增长率与各年缺失值的前一个非缺失值进行运算得到用于填补缺失值的数值,即先基于第一个非空值的i位数。计算其顺数下一个数即第i+1位的估计值,接着调用循环代码基于第i+1位估计值,计算第i+2位估计值,以此类推。本程序包最多可以计算中间有1 0个空值的情形,如需拓展功能还需要自行修改源代码。图

10、1 核心算法原理图(三)R语言封装流程图2 程序设计流程面板 数 据 缺 失 值 插 补 包 封 装 为R包“l i n-p u t”,目前最新版为3.0.6,已传到G i t h u b代码仓库,可在R语言编译器中运行代码块a进行下载:代码块ai f(i s.e l e m e n t(l i n p u t,i n s t a l l e d.p a c k a g e s()66杜云晗连享会.S t a t a:缺失值的填充和补漏J/O L.2 0 2 0-0 7-0 2,h t t p s:/w w w.l i a n x h.c n/n e w s/4 4 0 4 0 5 2 e 7

11、 b 3 3 6.h t m l。,1)=F A L S E)i f(i s.e l e m e n t(d e v t o o l s,i n s t a l l e d.p a c k a g e s(),1)=F A L S E)i n s t a l l.p a c k a g e s(“d e v t o o l s”)l i b r a r y(d e v t o o l s)e l s ei f(i s.e l e m e n t(d e v t o o l s,i n s t a l l e d.p a c k a g e s(),1)=T RU E)l i b r a r y

12、(d e v t o o l s)i n s t a l l_g i t h u b(“y o u n g y a o g u a i/l i n p u t/l i n p u t 3.0.6”)l i b r a r y(l i n p u t)h e l p(“l i n p u t”)e l s e i f(i s.e l e m e n t(l i n p u t,i n s t a l l e d.p a c k a-g e s(),1)=T RU E)l i b r a r y(l i n p u t)h e l p(“l i n p u t”)自行查看包内封装的R函数文件。(四

13、)相关包的加载与数据处理判断读入面板数据集后,调用l i n p u t函数并分别加载数据集d、面板个体变量p、时间变量y、作为处理对象的经济变量x和数据处理方法m。数据处理方法选择内插法,则将m赋值为0,选择外推法则将m赋值为1。L i n p u t函数体内部大量使用了t i d y v e r s e包的函数,因此加入判断是否安装了t i d y v e r s e包的代码块,如果未安装则会自动安装,核心代码如下:代码块bl i n p u t-f u n c t i o n(d,p,y,x,m)a t t r_t e m p-a t t r i b u t e s(x)e x t r

14、a p o l a t e-mi f(e x t r a p o l a t e!=0&e x t r a p o l a t e!=1)c a t(“E r r o r T h em e t h o dp a r a m e t e r i n p u t e dm u s tb e0o r1!“)i f(e x t r a p o l a t e=0|e x t r a p o l a t e=1)i f(i s.e l e m e n t(t i d y v e r s e,i n s t a l l e d.p a c k a g e s(),1)=F A L S E)i n s t

15、a l l.p a c k a g e s(“t i d y v e r s e”)e l s ei f(i s.e l e m e n t(t i d y v e r s e,i n s t a l l e d.p a c k a g e s(),1)=T RU E)c a t(“N o t e T h i sp a c k a g e#L i n e a r_i n p u t e d_D u y u n h a n#n e e d t h ep a c k a g e#t i d y v e r s e#s”,“n”,“s u p p o r t i n g,n o wt h ep a

16、c k a g e t i d y v e r s e h a sa l r e a d yb e e n i n s t a l l e d.”,“n”)l i b r a r y(t i d y v e r s e)l i b r a r y(p l y r)o r i g i n a l_d a t a-dt e s t_d a t a 2-do r i g i n a l_d a t a$i n d i v i d u a l-p其中原始数据集存放在临时数据集t e s t_d a-t a 2中。(五)面板数据缺失变量扩张通常进行经济学研究时,对原始数据的搜集和整理会面临个体缺失的情况,而非仅仅缺失数值点(表1)。对此,加入扩张变量的代码块,将变量按面板数据的结构化特征进行补齐,为后续估算数据填补做好准备。表1 个体缺失的面板数据个体I D时点I D数值I DC a s e 11 9 9 9V a l u e 1C a s e 22 0 0 0V a l u e 2C a s e 52 0 0 4V a l u e 5C a s e 62 0 0 5V a l u e 6 核心

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2