我的专业方向在写论文的时候用的大都是省级或者地级市的经济数据,一般这些数据都是从年鉴、国民经济社会发展统计公报、各类统计年报或者政府网站上获取,但是总会遇到统计不全导致的数据缺失问题。比如环境污染相关指标、专利申请授权数等,对于这些缺失数据,我的补齐方法一般是以下几种:
一、合并不同来源的数据
- 结合几个不同的数据来源,选取数据的并集。对于重复数据优先选择来源较为权威的数据,或者结合前后年份和变化趋势选择较为合理的一个。
- 找数据真的很艰难,经常找着找着心态就崩溃了,但这是做经济实证中势必要面对的问题。作为一个学生,自己的文章要自己动手去找数据,为了得到较为准确的结果、为了这批数据以后的可重复使用性,每一个数据的准确性都要让自己安心。
二、简单计算
- 如果几个指标之间有明确的计算关系(比如:第二产业产值、地区生产总值、第二产业产值占地区生产总值比重),任何一个缺失都可以用另外两个计算补齐。
- 如果公报中连续统计了几年的地区生产总值,后来突然改为统计人均地区生产总值,同时报告了人口数据。可以验证一下地区生产总值(是否大致)=人均地区生产总值×人口。一般来说数值会有出入,但当数据实在找不到时,不要嫌麻烦,可以作为一种补齐的参考。
- 建议将原始数据(含有缺失值的数据)保存一下,补齐后的数据另存。因为补齐的方式有好多种,如果实证结果不理想,想从补齐数据开始重做,这样会比较方便。
三、取中间值
- 该方法适合于:某项指标下,前后年份均有数值,中间年份缺失。
-
用线性插值法补齐(年份距离比较近,可以将其变化近似看作线性以简化计算)。比如图1的专利缺失数据可以取均值,然后取整数。
四、类似样本填补
- 找该指标数据类似的其他地级市来对缺失个体进行补齐。
- 假设想要补齐的原始数据为“地级市2002-2016年的专利申请授权数”,比较该指标下的非缺失值序列,选择非缺失年份下专利申请授权数大致相同或者有趋势关系的地级市,用它的数据直接填补或者作简单的倍数计算填补缺失的数据。
- 有时会找经济发展类似的其它地级市的数据进行填充,基于经济发展与专利申请授权数具有正向线性关系的假设(不太严谨)。如果用基于该假设补齐的数据做“经济发展与专利授权数关系”的研究,就是不合理的。
- 假设某个地市级的2002-2016年专利申请数据几乎全部缺失,此时无法使用专利申请数来选取相似个体,可以用与“专利申请数”相关的其它经济变量(比如地区生产总值)作为标准,选取相似个体填补整行数据。
五、函数法
该方法一般适用于:单侧缺失(一般是较早年份缺失,最近年份的数据一般比较齐全)。
-
线性函数(excel里trend函数)。
- 图2的 trend函数假定经济数据与时间存在相关关系(专利数据要取整)。构建函数时候应选择与缺失数据邻近年份的数据(认为经济数据的相关关系在时间上具有衰减性)。
-
非线性函数(excel散点图,加入非线性趋势线,根据公式计算缺失数据)。图3-图5以填补专利数据为例。
- 问题
1.选取哪些年份的数据构建函数?
选取不同时间区间计算出来的函数不同,计算的缺失值也会不同,可能要多试几次。
2.按理说这种统计方法计算的缺失值可靠性要高一些,但是实际中发现这种方式计算出来的缺失值不符合变化趋势,甚至会出现负值。
3.以上缺失值处理都是在excel中完成的,手动操作、效率比较低。
六、插值法(Matlab)
有位老师告诉我三次样条插值的方法,计算出来的缺失值较为平滑,结果可能相对合理。去查了一下matlab可以实现,不过只能下次处理数据的时候再实际操作了。
Matlab插值函数为interp1,其调用格式为: yi= interp1(x,y,xi,'method')
其中x,y为插值点,yi为在被插值点xi处的插值结果;x,y为向量, 'method'表示采用的插值方法,MATLAB提供的插值方法有几种: 'method'是最邻近插值, 'linear'线性插值; 'spline'三次样条插值; 'cubic'立方插值。缺省时表示线性插值。
注意:所有的插值方法都要求x是单调的,并且xi不能够超过x的范围。
参考来源:http://blog.sciencenet.cn/blog-457143-679275.html