川普赢了,但美国的数据同行们却输了

题图 - 川普大选获胜

文·blogchong

川普赢了!

今天全世界都在讨论一个事,那就是美国大选。是的,川普赢了!

我也很意外,因为前几天我还看到的是这个:

大选预测图

结局有点出乎意料,说好的预测希拉里成果率80%的呢?

那个网上做大选预测的那个家伙,还有画这个好看蛇形预测图的家伙,你给我站出来!我保证不打死你!

预测 - 大选拔河图(蛇形图)

是的,美国那边的数据同行们,被“啪啪”打脸了!

说好的“啤酒与尿布”呢?哦,对了,还有说好的“成功预测流感”呢?咋就不好使了。

莫非,是美国那边的数据同行们,水准下降了?!

好了,打住,不要偷偷得意了。

盆友圈里,有个数据同行盆友发了这样一个状态:“美国大选出乎意料的核心在于数据的不完整性。我们以为全世界的人都在互联网上,其实没有在互联网的人是多数。所以这个时候的大数据分析技术就是个伪命题,无法预测也是合理的。”

一语中的!

很多分析这次美国大选结果的盆友,很喜欢用的一个句话“农村包围城市”。

我们来看这张图,相信已经有不少盆友都看过:

美国大选选票分布图

从地图上可以看出,支持希拉里的蓝色部分,分布在西部沿海,以及东北部,当然其中包括了我们耳熟能详的纽约,以及加州。这些地方人口相对比较密集,也是美国经济比较发达的地区。

就算在一个州里,只有相对发达的城市对希拉里的支持是比较彻底的,例如佛罗里达州:

美国大选佛罗里达州选票分布

所以,确实是印证了“农村包围城市”的说法。

那么,这个现状对于之前我们说的数据预测有什么影响呢?

不可否认,互联网在美国的普及率也算是足够高了,但不得不承认的一个事实是:互联网上相对活跃的人群,肯定是经济能力相对较高,整体学识素质相对比较高的群体。

从这点来说,基于互联网的数据去做大选预测,本身就存在数据样本的不公平性。

也就印证了,盆友圈中的那句“其实很多人都不在互联网上的”,那部分人群是没有参与到预测中的。

还有一个比较重要的点就是:关键意见领袖(KOL)再加上社交媒体的影响力,使得数据预测进一步偏离了正确的方向。

我们都知道,现任美国总统奥巴马公开为希拉里拉选票,而苹果、Google、脸书等互联网领袖也都公开支持希拉里,当然还包括很多体育、娱乐明星等为希拉里站台。

这些人在互联网的公开影响力是不可忽视的,再结合社交网络的病毒式扩散,以“精英”阶层为主体的互联网,于是就这样被偏向了希拉里。

且不论国外,就算在国内。

就以微信热点传播为例,一些微信大号发表的一些对时事热点的看法,是很容易大面积覆盖朋友圈的,而作为吃瓜群众的我们也很容易受到这种意见领袖的影响(不受影响,你会转发吗)。

而今天虽然智能手机的普及率已经算是比较广了,但是作为经常吃瓜群众的我们,其实也算是“精英人士”了,我们是无法想象三四线城市的情况的,更何况那些农村地带呢?

你朋友圈中经常传播的热点,你那些依然拿着诺基亚的七大姑、八大姨听过吗?

你造中国农村人口有多少吗?

所以,基于互联网数据的选举预测,不可避免的使用了本身成分就不全面的基础数据,哪怕美国同行们用"看似"再精准,再智能的预测算法,结果一样是错的。

这里又回归到了我们的原始话题,并不是说预测的过程或者说算法存在问题,而是数据源存在问题。

这里告诉我们,作为大数据领域里开挖掘机的我们,在苦练开挖掘机技术的时候,不要忽视了前期数据收集,以及数据预处理的重要性。

很多时候,数据源的选取,以及数据的预处理过程,将会对你的后续挖掘结果产生巨大的影响,包括我们经常说的推荐。

当然,包括对数据源要求更严格的预测模型等。

最后,作为数据领域的我们,要正确的看待这一次的美国大选数据预测事件,一方面要严谨对待数据选择的问题,另一方面也不要就因此而否定数据挖掘的价值!

(全文完)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,456评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,370评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,337评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,583评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,596评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,572评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,936评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,595评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,850评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,601评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,685评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,371评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,951评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,934评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,167评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,636评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,411评论 2 342

推荐阅读更多精彩内容