听说最近北京雾霾严重,我就琢磨,有关部门治理了一通大气污染,到底有没有成效呢? 于是就想上网找找历史数据看一眼。结果找到一篇文章, 是加州大学的两个人写的 (http://www.sciencedirect.com/science/article/pii/S0095069614000400),他们从官方数据上看出了蹊跷, 简单解释一下原理。假如PM2.5的测试值在100以下就算蓝天,100以上就算污染。(一年中的蓝天数是跟政绩挂钩的。)那俩学者一看数据,发现怎么一堆98,99,却很少有101,102。这就不免让人怀疑是不是有数据造假。这就像中国汽车越来越多,公路交通事故死亡人数却一路下降一样神奇。(http://view.news.qq.com/original/intouchtoday/n2911.html)
放弃了从官网上找数据后,又发现美国驻北京大使馆提供PM2.5历史数据下载(http://www.stateair.net/web/historical/1/1.html),还是csv格式的,处理起来很方便,就下载了2013年到2016年的数据,简单分析一下。目前2016年只提供到9月30号的数据, 大约到明年二三月份才能看到今年12月份的数据。数据每小时采集一次,缺失率低于3%。对于缺失的数据我并没有直接扔掉,而是尽量给它估一个值,假如一点钟PM2.5测量值是100,四点钟是106,两点钟三点钟数据缺失,那么就给两点钟估值102,给三点钟估值104。这个功能不需要自己写程序实现,直接调用python pandas的一个function就行。用一个采集点的数据没法代表整个北京的情况,但似乎没有更好的办法了。
首先看,空气质量有在好转么?是的,确实有好转, 2013年全年PM2.5平均值是101.6, 到2014年是97.95, 2015年进步比较大, 是82.52。今年前9个月平均是60.16。可以看到,14年比13年进步不大,但从统计学的角度上说,确实是显著性(significant)差异。最近两年在美国工作,8月底回北京休假+在家办公一共六周,开始20来天感觉“哇,北京空气问题基本解决了”,后来9月下旬到十月初又开始有雾霾,据说最近天气也不好,估计2016年对比2015年不乐观。
有人说一到取暖季空气就会差很多,其实从数据上看,2013年,2014年11,12月空气质量也还好,但去年的最后两个月确实比较恐怖。
上图是2013年逐月AQI平均值的数据
上图是2014年逐月AQI平均值的数据
上图是2015年逐月AQI平均值的数据
上图是2016年逐月AQI平均值的数据
那么一天中空气质量有特定规律么? 从2016年的数据看,下午3点是一天中空气最好的,晚上8,9点到半夜空气最差。从半夜到下午两三点钟,空气越来越好,三点之后,空气又越来越差。 2015年的数据也支持这样的规律。 注意,下图2016年按小时数据的变化不如2015年明显,下图2016年的纵轴是20个刻度,2015年是30个刻度。2016年只有前9个月的数据。
2015年按小时空气质量变化
2016年按小时空气质量变化
分析费脑,打字费力,欢迎打赏!