做数据新闻如何找寻数据(随手吐槽向)

顾名思义,做一个数据新闻作品最重要的部分之一就是数据。没有数据,何谈数据新闻呢?。找数据的成功与否会直接关系到整个项目的进展。那么应该如何找寻(结构化的)数据呢(这里的括号真实辛酸,毕竟把乱七八糟格式的数据结构化也是一大工程笑)

在这里我们要做一项基本假设:你所感兴趣的数据总有人比你先感兴趣。

本着这一项基本原则,我们找数据所要找寻的第一目标当然是对应的数据库(或者先看到了数据库再做选题是吧)。最好的结果就是正好有好心人/好心机构整理过你需要的数据,并且将它做了结构化。

主流的数据,或者说提及“数据”二字大多数人的联想结果都可以通过找数据库的方式直接找到结构化的数据,例如经济方面的数据,各个国家的基本信息以及恐怖主义的数据(笑)等等。提醒一句:带有“中国”之类的数据请一定前往政府官方网站核实!因为自己往外说的话和别人口中传的话是不一样的!(然后自行决定用哪边的hhh)

国家统计局:http://www.stats.gov.cn/

中国统计信息网:http://www.tjcn.org/

不过不要把“主流数据”的范围局限在如此小的范围内,这个世界上真的存在非常多不可思议的数据库,把你想要找寻的主题后面加上“database”用谷歌搜搜看,往往有意外发现。不过要注意数据库的建立机构是否权威,毕竟我哪天心情好也可以上传个网页编点数据玩玩。

推荐一个神奇网页:github上名为Awesome Public Datasets的项目,上面包含了许许多多神奇的数据集(只要你英语好),非常适合做(这件事关注度不高但很重要的)有趣的选题!

神奇数据集:https://github.com/awesomedata/awesome-public-datasets

(开源精神万岁!)

然而,不幸的是,自己的项目恰好有成网站的数据库的概率并不是100%。很多时候我们不得不为了得到结构化的数据而煞费苦心。这时该如何是好?

别忘了我们的基本假设:总有人比你先感兴趣。

我们都知道的一个共识:数据还是官方的最权威。换句话说,某类事物的“官方”,或是组织或是研究机构,会有着关于这类事物最详细的数据,即找数据总要去官网看看,说不定官方就有database或者是library,即使都没有,也很可能存在官方报告。虽然官方报告总是又长又全,但里面也可能包含着有用的信息。

奥林匹克官方文库:https://library.olympic.org/Default/accueil.aspx

而与此同时,这个世界上总有着这样那样有志趣的人为了这样或那样的事奔走呼号。我想说的是,不光是数据库,官方机构也远比你想象得多。比如WTO:World Toilet Organization(致敬段哥组)在搜索时加一个Organization或者Committee试一试,也许会有收获。

世界厕所组织官方网站(你找到了更好的WTO):http://worldtoilet.org/

(吐槽一下北京2022冬奥会组委会官网:你没有数据库也就算了,连官方文件原文都没有,我去你官网看新闻的么??)

当然,作为一位优秀的数据新闻工作者,想要独辟蹊径是非常非常正常的想法。如果你的选题恰好即没有数据库,又没有相关组织的官网,那首要的做法当然是求助万能的谷歌啦(百度爬)!

首要的搜索对象就是相关新闻。虽然大家都是懂数据的新闻人,知道新闻中的各种话术,但规矩的新闻作品还是会有“消息来源”的。但凡牵扯到一点数字的消息来源都可以成为你的考虑范围,哪怕是“某某某说”这样的话,也可以去谷歌他的名字,如果他是学者可能会搜出来相关论文,如果他是发言人也可能搜出来相关文件。

提到论文,另一个重要的的搜索对象当然是该领域的相关研究。但我个人不提倡在谷歌学术之类的平台直接凭关键字搜索,除非你的英语水平真的非常强,要不然在众多英语论文中提取相关信息容易自闭。

然而论文和研究真的相当相当相当重要,因为专业的学者(理所应当地)会有你从未想到过的角度,而带有表的论文又是重要的数据来源之一。所以遇到一篇(你觉得)有用的论文,请尽量读,了解大概。

(英语水平洼的谷歌可以翻译PDF,前提是1M一下)

(1M以上的PDF,把内容手动复制到一个HTML里然后用Chrome打开,真香)

以上就是我对于收集数据的一点经验和介绍,这篇文章的写作处于朦胧状态,类似于啤酒2-3瓶,所以风格比较自由,废话比较多,但仍希望能够帮到你。

(最后的吐槽以及本文唯二的配图留给自信满满的中文论文们)

啧啧啧可靠性是靠这个整齐的表格得来的么?

兄弟你写作文呢?

没有数据来源的论文新闻及项目一律视为胡扯。

end

(文/李奕)

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,386评论 6 479
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,939评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,851评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,953评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,971评论 5 369
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,784评论 1 283
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,126评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,765评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,148评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,744评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,858评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,479评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,080评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,053评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,278评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,245评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,590评论 2 343

推荐阅读更多精彩内容

  • 当代社会,“二八定律”已经不是那么适用了,用“头部效应”来诠释现在的社会更为贴切,那么什么是头部定律呢? ✅头部效...
    Snow大瑞董阅读 391评论 0 0
  • prototype 是 constructor 才有的属性。被构造函数创建的实例对象的 __proto__ 指向 ...
    stanf1l阅读 282评论 0 0
  • 正月十五元宵节,这一年的春节假期算是圆满过去了,这段时间一直下雪的天也彻底的放晴了。 元宵节元宵节,挡不住的吃元宵...
    劉筱臻儿阅读 297评论 0 4
  • 牛客练习赛27 github博客地址 A 纸牌 C 水图 只有一条路不用回来,其他都要回到开始点;所以,除了最长路...
    lzyprime阅读 228评论 0 0
  • "想吃辣子鸡小笼包奶油蛋糕猪肘子绿豆味的雪糕。" "这秤又坏了。"
    一只帅羊猪阅读 179评论 0 0