如何对PDF文献做可视化分析?

看了大量文献后,你的硬盘上想必存下不少PDF文件。能否充分利用它们,挖掘出你独特的领域知识地图呢?本文为你提供一种简便易行的办法。

疑问

在网上写文章最大的好处,是经常可以收到读者的反馈。不少读者会提出一些好问题,时常给我以启发。

前些日子,我写了《如何快速梳理领域文献》一文,为大家讲解了如何使用VosViewer这一文献可视化分析工具,快速梳理领域文献。

有读者来信,提出一个疑问:

是否有软件支持导入PDF文件,直接做文献可视化分析呢?

我看到这个问题,开始一愣,继而会心一笑。

愣的原因是,我之前没有想过会有这样的需求。因为做文献可视化分析的时机,往往是我们刚刚接触某一个领域,不确定哪些文献应该重点阅读。

这时候,信息的来源是文献数据库(Web of Science, Scopus等)的检索结果。这些导出的检索结果里面包含了足够的可供分析的元数据信息(作者、机构、时间、国别、期刊等)。

然而PDF文件可就不一样了。虽然它包含了文献的全文,但是却并不更适合提炼元数据信息,做文献可视化分析。尤其是比起元数据导出格式(例如RIS等),它的体积又大得多。

因此,很难想象一个文献可视化工具会选用PDF作为数据源。

于是,我打算如实回答,在我接触过的若干种主流文献可视化工具里,没有哪一款支持这样的功能。

但是,我旋即想起了哈佛大学营销学教授莱维特(Theodore Levitt)的那句经典名言:

人们其实不想买一个1/4英寸的钻头。他们只想要一个1/4英寸的洞。

如果透过表象,洞察用户的实际需求,我就立刻能理解这位读者的痛点在哪里了。

痛点

对科研工作者来说,已阅读文献(大多是PDF格式)的管理,确实是个非常实际的难题。

我们经常会从各种文献数据库里下载阅读文献,也因此会在硬盘里积攒下大量的PDF文件。这些文献往往是在相对较长的一段时间内积累起来的,许多都经过了研究者的扫读(skimming)甚至是精读,确认和研究主题密切相关,才被一直保留下来。

当然,如果你阅读后发现文献不相关,都懒得整理……算我没说。(幸好做可视化分析的时候,这部分文献可以相对容易地被识别出来。)

跟文献数据库里检索结果全集比起来,这些PDF数量虽多,一般也只是一个子集,并不够全面和完备。但是我们对其更熟悉,而且这些文献也更能准确刻画我们对某个领域的掌握程度。

有的学科发展很快,研究热点文献喷涌而出。例如双中子星合并被人类首次观测当夜,就有若干篇相关文章发了出来。研究者硬盘里PDF文件积累成百上千篇,毫不稀奇。

一旦文献数量超越了邓巴数,你再想要“如数家珍”,难度就会大幅上升。大部分人甚至都会忘记,自己曾经下载、存储并浏览过某个PDF文件。

如果能够利用文献可视化工具,对这些文献做梳理,会有助于我们理清自己掌握文献的脉络,做到心中有数。

更进一步,如果我们把手头PDF文件的可视化结果,与全局检索结果的分析图形进行对比,还可以明显看出自己对领域扫描是否全面。这将有助于我们找准大方向,避免在文献丛林中迷失。

这样看来,读者的问题就透露出非常有意义的需求。

这种需求,未必需要通过一个全功能的,可以直接从PDF做出分析的文献可视化工具一站式完成。

我们可以把它拆解为两个环节:

  1. 从PDF文件提炼文献元数据信息;
  2. 将元数据信息输入到文献可视化工具做分析。

第二个环节,我在《如何快速梳理领域文献》一文中,已经做了详细的介绍。需要补充的是,后来我的学生还做了一个全中文的视频教程,从头到尾展示了一次文献采集和分析过程。欢迎访问这个链接来观看。

我今天向你展示,如何从PDF文件提炼文献元数据信息。

当然,你完全可以打开PDF文件,把其中各种元数据信息手工提炼出来,然后照葫芦画瓢,存储成Web of Science等文献数据库的导出格式,输入到VosViewer中。

但是,这显然效率很低,而且非常容易出错误。

工欲善其事,必先利其器。我们会采用一款非常优秀的文献管理工具,完成这一过程。

工具

这款工具,叫做Zotero。

安仁心智的董事长阳志平先生,曾经撰写了系列文章,详细介绍了Zotero的特色、功用和操作方法。建议你读完本文后,认真通读该系列文章

本文只涉及到Zotero的几个非常简单实用的功能。因此如果你没有听说过Zotero,对它不熟悉,也不要紧。一步步按照下文的步骤操作就可以了。

请到这个网址下载最新版本的Zotero。

我使用的是macOS版本。下载后的格式为dmg。双击打开该文件后,拖拽Zotero应用图标到Application目录的快捷方式里,即可完成安装。

从Application目录下,找到Zotero应用,打开。

你就可以看到Zotero的主界面了。我很想给你展示一个空白的Zotero界面,可惜我已经在其中存储了许多文献内容了。

下文中,我新建了一个空白类别目录,为你演示。

工具准备好了,下面我们来逐步展示操作流程。

操作

Zotero导入PDF文件,是非常方便的,只需要拖拽即可。下面这个GIF动图为你演示了使用方法。

这时,你点击某个PDF文件,右侧的状态栏会有文件描述。但是你可以看到,目前描述内容很少。只有文件名、页码和修改日期等。

不过我们可以很方便地利用Zotero的“重新抓取PDF元数据”功能,获得完整的文献描述信息。

例如下面这个动图,演示了如何右键菜单选择“重新抓取PDF元数据”,将PDF文件变成元数据完备的文献记录。

此时,右侧的状态栏里,文献信息可就清晰多了。

可以看到,标题、作者、期刊……甚至是页码都采集完整了。

下面我们需要把文献集合的信息导出。为了和后续的文献可视化工具配合,请注意一定要选择RIS格式

我们打开导出后的RIS文件,预览内容:

RIS文件里包含了许多做文献分析需要用到的元数据。但是眼尖的你一定会发现,这里缺少参考文献列表信息。因此,你无法做用它做文献网络分析。但是它依然可以帮助我们挖掘很多有用的信息。

我们在VosViewer下新建一个项目。

从选项中,可以看到第二项(Create a map based on bibliographic data)或者第三项(Create a map based on text data)功能的数据读入方式,都支持RIS格式。

我们用第二项试试看。默认选项下,它可以抽取合著者(co-authorship)信息。

因为样例中文献数量较少,所以我们降低了默认阈值,以获得更为丰富的结果。

分析结果的密度图如下:

可以看到,你收集的文献中有哪些作者相对高产,以及他们之间的联系。

我们再试试第三项。分析主题信息。

由于过程与第二项类似,我们就不再赘述了。分析结果如下图所示。

VosViewer正确识别出了我们查找的文献主题是大数据和竞争情报的关联,而且揭示了许多文献采用的方法是Web信息抽取。

必须说明,此处我们只是为了展示操作方法,采用了非常简单的文献集。参数设置也没有经过合理的调整。从数量这么小的文献集合里,能获得的知识和洞见是非常有限的。如果你积攒的PDF文件数量足够多,那效果就会大不一样了。

小结

读过本文后,希望你已了解以下内容:

  • 如何用Zotero导入和管理PDF文献;
  • 如何用Zotero抓取PDF文献的元数据;
  • 如何将Zotero中的文献集合信息输出给VosViewer等可视化分析工具;
  • 如何挖掘和准确定义用户的需求;
  • 如何结合不同的工具来综合解决问题,尝试满足用户需求。

与Zotero类似的文献管理工具还有很多。Mendeley, Papers, ReadCube等工具都很优秀,也具备PDF元信息获取功能。我个人偏好Zotero,因为它小巧、强大,还免费。

讨论

你平时阅读的PDF文件多吗?你是如何有效管理它们的?你使用过哪些优秀管理工具?它们的特色是什么?欢迎留言,把你的经验和心得分享给大家,我们一起交流讨论。

如果你对我的文章感兴趣,欢迎点赞,并且微信关注和置顶我的公众号“玉树芝兰”(nkwangshuyi)。

如果本文可能对你身边的亲友有帮助,也欢迎你把本文通过微博或朋友圈分享给他们。让他们一起参与到我们的讨论中来。

延伸阅读

如何用《玉树芝兰》入门数据科学?

数据科学相关文章合集(玉树芝兰)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,761评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,953评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,998评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,248评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,130评论 4 356
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,145评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,550评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,236评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,510评论 1 291
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,601评论 2 310
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,376评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,247评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,613评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,911评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,191评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,532评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,739评论 2 335

推荐阅读更多精彩内容