顾名思义,做一个数据新闻作品最重要的部分之一就是数据。没有数据,何谈数据新闻呢?。找数据的成功与否会直接关系到整个项目的进展。那么应该如何找寻(结构化的)数据呢(这里的括号真实辛酸,毕竟把乱七八糟格式的数据结构化也是一大工程笑)?
在这里我们要做一项基本假设:你所感兴趣的数据总有人比你先感兴趣。
本着这一项基本原则,我们找数据所要找寻的第一目标当然是对应的数据库(或者先看到了数据库再做选题是吧)。最好的结果就是正好有好心人/好心机构整理过你需要的数据,并且将它做了结构化。
主流的数据,或者说提及“数据”二字大多数人的联想结果都可以通过找数据库的方式直接找到结构化的数据,例如经济方面的数据,各个国家的基本信息以及恐怖主义的数据(笑)等等。提醒一句:带有“中国”之类的数据请一定前往政府官方网站核实!因为自己往外说的话和别人口中传的话是不一样的!(然后自行决定用哪边的hhh)
国家统计局:http://www.stats.gov.cn/
中国统计信息网:http://www.tjcn.org/
不过不要把“主流数据”的范围局限在如此小的范围内,这个世界上真的存在非常多不可思议的数据库,把你想要找寻的主题后面加上“database”用谷歌搜搜看,往往有意外发现。不过要注意数据库的建立机构是否权威,毕竟我哪天心情好也可以上传个网页编点数据玩玩。
推荐一个神奇网页:github上名为Awesome Public Datasets的项目,上面包含了许许多多神奇的数据集(只要你英语好),非常适合做(这件事关注度不高但很重要的)有趣的选题!
神奇数据集:https://github.com/awesomedata/awesome-public-datasets
(开源精神万岁!)
然而,不幸的是,自己的项目恰好有成网站的数据库的概率并不是100%。很多时候我们不得不为了得到结构化的数据而煞费苦心。这时该如何是好?
别忘了我们的基本假设:总有人比你先感兴趣。
我们都知道的一个共识:数据还是官方的最权威。换句话说,某类事物的“官方”,或是组织或是研究机构,会有着关于这类事物最详细的数据,即找数据总要去官网看看,说不定官方就有database或者是library,即使都没有,也很可能存在官方报告。虽然官方报告总是又长又全,但里面也可能包含着有用的信息。
奥林匹克官方文库:https://library.olympic.org/Default/accueil.aspx
而与此同时,这个世界上总有着这样那样有志趣的人为了这样或那样的事奔走呼号。我想说的是,不光是数据库,官方机构也远比你想象得多。比如WTO:World Toilet Organization(致敬段哥组)。在搜索时加一个Organization或者Committee试一试,也许会有收获。
世界厕所组织官方网站(你找到了更好的WTO):http://worldtoilet.org/
(吐槽一下北京2022冬奥会组委会官网:你没有数据库也就算了,连官方文件原文都没有,我去你官网看新闻的么??)
当然,作为一位优秀的数据新闻工作者,想要独辟蹊径是非常非常正常的想法。如果你的选题恰好即没有数据库,又没有相关组织的官网,那首要的做法当然是求助万能的谷歌啦(百度爬)!
首要的搜索对象就是相关新闻。虽然大家都是懂数据的新闻人,知道新闻中的各种话术,但规矩的新闻作品还是会有“消息来源”的。但凡牵扯到一点数字的消息来源都可以成为你的考虑范围,哪怕是“某某某说”这样的话,也可以去谷歌他的名字,如果他是学者可能会搜出来相关论文,如果他是发言人也可能搜出来相关文件。
提到论文,另一个重要的的搜索对象当然是该领域的相关研究。但我个人不提倡在谷歌学术之类的平台直接凭关键字搜索,除非你的英语水平真的非常强,要不然在众多英语论文中提取相关信息容易自闭。
然而论文和研究真的相当相当相当重要,因为专业的学者(理所应当地)会有你从未想到过的角度,而带有表的论文又是重要的数据来源之一。所以遇到一篇(你觉得)有用的论文,请尽量读,了解大概。
(英语水平洼的谷歌可以翻译PDF,前提是1M一下)
(1M以上的PDF,把内容手动复制到一个HTML里然后用Chrome打开,真香)
以上就是我对于收集数据的一点经验和介绍,这篇文章的写作处于朦胧状态,类似于啤酒2-3瓶,所以风格比较自由,废话比较多,但仍希望能够帮到你。
(最后的吐槽以及本文唯二的配图留给自信满满的中文论文们)
啧啧啧可靠性是靠这个整齐的表格得来的么?
兄弟你写作文呢?
没有数据来源的论文新闻及项目一律视为胡扯。
end
(文/李奕)