疫情地图制作复盘-20200327

疫情爆发到现在,你是不是也跟我一样,每天起床都要点开丁香医生,看一下疫情最新情况?如此火爆的背后,更何况领导天天push我学习丁香医生的思路,该项目有没有借鉴性呢?以疫情地图为例,来讲讲数据分析师做项目的思路。

我将项目分析总结为五步法:数据收集、定义问题、数据清洗、数据分析、输出报告。今天我将对每一步进行业务上的拆解。


数据分析五步法

一、定义问题

分析的重中之重是定义问题。这个项目的需求是什么?想达到的效果是什么?

丁香医生想做一款实时更新疫情数据的产品,方便用户了解实时疫情动态。

那用户是谁?用户最关心什么?

丁香医生的用户是老百姓,咱老百姓最关心的呢,是今天又确诊多少人,疑似多少人,死亡多少人,以及治愈多少人,疫情是不是往好的方向发展……

依照《精益数据分析》提出的“第一关键指标法”,我们提炼出关键指标:确诊人数、疑似人数、死亡人数、治愈人数。

关键指标

同时,咱老百姓除了想知道整个疫情发展,也很关心自己城市的情况,因此将关键指标按省份、城市细分。疫情地图就包含了全国确诊人数热力图,各省、各市的关键指标。

各省份、城市关键指标

二、数据采集

数据真实可信是数据分析的前提。丁香医生的数据来源于国家卫健委、各省市卫健委、各省市政府、港澳台等官方渠道,来源权威。

咱们数据分析师日常怎么收集数据呢?

内部数据:天天需要。公司把数据存放在自家服务器或阿里云等第三方平台,通过SQL获取。

外部数据:也很重要,较难获取。可以用国家统计局、中国人民银行等公布的数据;使用第三方数据库,如万德、国泰安、锐思等数据库下载数据;或使用爬虫,爬到自己想要的数据。

三、数据清洗

数据清洗几乎占用数据分析师80%的时间。在这里,丁香医生主要涉及去重口径一致

(1)去重

上面收集来的数据,各个渠道会不会重复统计呢?比如国家卫健委、省卫健委和省政府公布的数据中,肯定有重复部分,需要我们去掉重复值。

丁香医生也曾重复统计过,导致新增确诊人数变多,不过很快纠正了。

(2)口径一致

报表上线后,口径变化是大忌。2月12日,确诊口径由单一核酸检测,新加入临床诊断,确诊人数大增,一下多了1万多人。

如果是数据分析师随意调整统计口径,那就要背锅走人了;如果是老板要改口径,数据分析师就得想想该怎么妥善处理了。

丁香医生是怎么做的呢?

当日确诊人数爆增,丁香医生用虚线表示增长,并且右上方备注“临床诊断病例的影响”。这样做既反映了真实情况,也解释了因统计口径变化,导致数据异常增长。

口径变化导致的激增

四、数据分析

数据收集和清洗是基本能力,数据分析才是核心竞争力。

我们在思考用什么指标来做分析时,可以参考《精益数据分析》里,关于“什么是好的数据指标”的总结:

好的数据指标是比较性的(较昨日、新增疑似、新增确诊……);

好的数据指标是简单易懂的(确诊、死亡、治愈……);

好的数据指标是一个比率(病死率=死亡人数/确诊人数、治愈率=治愈人数/确诊人数);

好的数据指标会改变行为(通过新增确诊走势,了解疫情是否正在缓解,指定方针)。

由于丁香医生疫情地图产品,只向大家展现客观数据,没有输出具体的主观结论。但我们仍然可以根据丁香医生的指标的和图表,对疫情发展情况作出判断。

1. 趋势变化

由新增趋势图,可以看到,新增确诊病例在2月12日修改统计口径后,逐渐下降,新增疑似病例在2月5日后逐渐下降。

由现存疑似、确诊趋势图,可以看到,现存确诊病例从1月19日-2月12日,呈陡峭的直线上升,在2月16日到达峰值以后,逐渐下降,现存疑似在2月8日到达峰值后逐渐下降。

全国疫情新增、现存趋势图

因为湖北是最严重的受灾区,会严重拉高其他省市的数据,因此需要特殊对待。

湖北新增确诊病例2月12日暴增1.5万以后,逐渐下跌,最近几日都维持在新增400人的水平,非湖北新增确诊病例在2月3日之前剧烈增长,2月3日武汉及周边城市封城、大家不外出聚集以后,逐渐下降,最近几日维持在两位数甚至个位数。

湖北、非湖北新增趋势图

2. 比率

知道了每天的新增情况,咱老百姓还关心,这个新型冠状肺炎厉不厉害,死亡率高不高啊?

丁香医生针对这一需求,又设计了病死率趋势图和治愈率趋势图。同样由于湖北是集中爆发区,将湖北和非湖北分别对待。

病死率、治愈率趋势图

五、输出报告

终于到了输出环节,丁香医生最新的版本做得非常好,我们以后做可视化产品时,完全可以借鉴板块的划分。

全国关键指标、较昨日变化情况、分省市统计关键指标、变化趋势、病死率和治愈率等。老百姓关注的点几乎都涵盖在里面。

丁香医生疫情地图版本也是一步步迭代来,我们来看一下修改前,和修改后的对比图。

修改前后对比图1,增加了更多指标和环比数据

初版地图,只有当日累计数值,修改后增加了“较昨日”的变化数据;初版只包含确诊、疑似、死亡和治愈4个指标,修改后增加了现存确诊、现存疑似、现存重症等指标。

修改前后对比图2,数据表格化,维度进一步细分

修改前,按省份的关键指标没有细分到城市,我们其实更关心自己城市的数据。修改后采用折叠的形式,阅读舒适度非常好。

修改前后对比图3,不同数量级指标分图展示

初版将确诊、疑似、死亡和治愈放到一起,由于确诊和死亡人数不在一个数量级,导致死亡人数的趋势无法直观表达出来,修改后将新增、现存、死亡和治愈分别列出,更能各自反映变化趋势。

报告首先呈现的一定是大家最关心的结论(确诊、疑似、死亡、治愈),其次是对结果的拆解分析,包含指标的拆解(现存确诊=昨日确诊+新增确诊-昨日死亡-昨日治愈)维度(按省市拆关键指标)的拆分两方面,最后才可能加上一些个人分析(疫情什么时候会变好)。

本文总结

“疫情地图案例”基本符合数据分析五步法的套路。

数据分析一定要在数据准确的基础上进行,数据分析=80%清洗+20%分析。

从权健到疫情地图,丁香医生抓热点声名大噪的故事值得小伙伴借鉴。

初版的体系搭建、报告输出、可视化展示都是不成熟的,需要进行多轮迭代。

以上为结合网上信息梳理学习整理的,还搞了一个比较详细的放踩坑思维导图,需要探讨的可以私信互相学习


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
禁止转载,如需转载请通过简信或评论联系作者。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,830评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,992评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,875评论 0 331
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,837评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,734评论 5 360
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,091评论 1 277
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,550评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,217评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,368评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,298评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,350评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,027评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,623评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,706评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,940评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,349评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,936评论 2 341

推荐阅读更多精彩内容