2015年,有一部很火的IP作品《何以笙箫默》,里面有一句蛮有意味的小句“世界上最痛苦的事,不是无能为力,而是当一切都触手可及,我却不愿伸出手去。”曾经的岳阳,我们自豪的说,岳阳是一座可以深呼吸的城市。然而,回首2015年,岳阳人,是否依然可以深呼吸?
2015年10月,一位朋友从常德过来,游玩之余,漫不经心的说了一句,“岳阳今天天气好差,不会有霾吧”。当时我心里一惊:“或许是雾吧”,但却萌生了用Python和PHP来分析岳阳空气质量的想法。
时间转眼到了一月,两篇报道吸引了我的注意。
作为一个对数字还算敏感的人,当时我就发现第一篇文章332/365绝对不可能为88.3%,而是应该为90.96%,而假如逆推88.3%的话,应该为322天,与“相比上年度空气质量优良天数267天多出65天”又自相矛盾。而且332和267这个两个数字都属于加1减1的补偿的思维定式,所以有一定的捏造的可能,同时与省环保厅宣传差别太大,平均77.9%,岳阳全省倒数第二,所以这里肯定有问题。
既然有问题,那就解决它吧。在中华人民共和国环境保护部信息中心爬下了所有AQI数据,并从青悦开放环境数据中心得到一部分缺失的数据(2014.4.11才启用南湖风景区、城陵矶、开发区、云溪区、君山区、金凤水库监控点,之前全市只有国控和非国控两个数据),利用Execl和SPSS开始了分析。
总体分析
地区/时间 | 优 | 良 | 轻度污染 | 中度污染 | 重度污染 | 严重污染 | 优良率 |
---|---|---|---|---|---|---|---|
娄底2015 | 18.4% | 58.6% | 20.3% | 2.2% | 0.5% | 77% | |
株洲2015 | 21.6% | 55.1% | 14.5% | 6.6% | 2.2% | 76.7% | |
常德2015 | 14.8% | 64.1% | 17.0% | 3.8% | 0.3% | 78.9% | |
长沙2015 | 18.5% | 51.5% | 19.6% | 6.9% | 3.6% | 70% | |
湘潭2015 | 19.2% | 55.3% | 18.4% | 6.0% | 1.1% | 74.5% | |
郴州2015 | 29.3% | 54.2% | 14.8% | 1.6% | 83.5% | ||
岳阳2015 | 8.8% | 64.7% | 24.7% | 1.9% | 73.5% | ||
岳阳2014 | 2.7% | 73.4% | 16.5% | 5.8% | 1.1% | 0.5% | 76.1% |
部分数字采用四舍五入的进位方式,
在统计中2015年有国控和非国控以及省和环保部好几套数据,由于是与其它市洲和往年比较,选取了一套数据较全的样本集,其它样本集计算出来优良率的结果分别为79.45%和75.62%,与新闻上宣传的88.3%差别还是蛮大的,和环保厅的77.9%比较接近。
在全省看来,今年岳阳空气质量真的算差的,2015年全国月排名最好一次169,最差一次276,平均202;而2014年全国月排名岳阳平均104,也就是说2015年退步了98个名次,说好的深呼吸呢!!!
同时,不能抹杀环保部门的努力,2015年相比2014年,严重污染、重度污染和中度污染大有减少,均值也有所下降。全年12月中,同比减少的月份有1、3、4、5、6、10、11月,同比增加有2、8、9月,同比持平有7、12月,总体上还是向好的趋势转变。
污染严重的天什么时候出门比较好?
如果遇到污染天气,全天污染较为严重的分别是0点、1点、2点和13点、21点、22点、23点,所以早点回家不要在外面浪是对的....
实际是因为白天有太阳辐射的作用,空气之间的交换比较明显,即便有污染也会跟其他周围的空气进行扩散、稀释;但在夜间地面辐射降温作用比较明显,所以近地面层的空气容易形成逆温层,地面风力较小的话,空气交换作用不明显。
岳阳哪个地方空气质量最好,哪个地方最差?哪个地方治理最见成效?
首先,金凤水库监控点工作人员要培训啦吧....一年故障数快接近其它监控点的故障数总和。然后不出意外的南湖风景区以6633次优良、1383次污染位列宜居榜之首(不过哪个点在地图上怎么看都像是在金鹗公园里面),君山区以6437次优良、1489次污染居第二,最差的则是经济开放区。
云溪区以20.69%的优良提升率居第一,君山区12.69%居第二,金凤水库是唯一有下降的地方,下降5.48%。
地区 |2015年 |2014年|优良变化率|
----|------------|---------------|
城陵矶|0.74795943606233|0.707094201694634|0.0408652343676963
金凤水库|0.733737323769478|0.788503073600266|-0.0547657498307877
君山区|0.796067276774672|0.669211618257261|0.126855658517411
开发区|0.734603017561217|0.709762970329852|0.0248400472313645
南湖风景区|0.820306702943359|0.790531561461794|0.0297751414815649
云溪区|0.784442245857037|0.577586206896552|0.206856038960485
利用插值估计和海拔图来推测岳阳区域空气最好的地方(由于大部分为平原,不考虑地势分布和空气扩散条件,同时没有地面1.5m的开阔、通风地区的均一观测值,结论有可能完全不正确,just for fun!)
顺便玩个小游戏,大家一起来猜猜哪天发生了什么
2月19号我猜出来是初一零点大家在放烟花。
但1月19号是什么?
数据是否有作假?
Benford 定律验证法
奔福德定律(Benford'slaw)也被称为“首位数现象”(First-digitphenomena)、有效数字法则(Significantdigitlaw)、对数法则(LogarithmLaw),是从统计学角度检测鲜为人知的数字分布的内在规律。该定律揭示了在满足特定条件的情况下,大量统计数据中数字1—9出现在数据首位的概率分布规律。
1881年,美国数学家Newcomb最早发现Benford定律。1938年,美国通用电气公司(GE)科学家FrankBenford通过研究,得出和Newcomb同样的结论:人们处理较小数字开头的数值的频率较大。为了证明结论,Benford收集了20229个20组数据,这些数据来源千差万别,发现整数1在首位出现的概率约为30%,整数2约为17%,而8和9在数字首位出现的概率分别为5%和4%。通过分析,Benford发现正常的数据集符合某种规律,并因此推导出Benford定律的数学表达式,即数字第一位上各个非0数字出现的概率,用公式表达如下:
依据加州大学伯克利分校对北京AQI指数进行的benford率验证的方法(论文链接),我对岳阳2014、2015年AQI进行验证,结果如下:
一般而言,chi-squre 值低于5% 的数值表示表示实际分配符合预测分配(Benford) 的概率非常低;而数值10%或以下,表示至少有 90%的概率,資料可能是不正常的。独立性检查结果值非常低,表示样本资料可能是人工伪造的。
Logistic回归分析
即逻辑模型(英语:Logit model,也译作“评定模型”、“分类评定模型”)是离散选择法模型之一,属于多重变量分析范畴(详细解释)。
由于我无法建立符合逻辑的评定模型,咨询THU的朋友也无果,表示放弃该分析方法。
附:空气质量指数级别
资料来源:
中华人民共和国环境保护部信息中心
青悦开放环境数据中心
中国大陆重点城市空气质量历史数据库项目
PM2.5科学实验专家小组
Wikipedia