主讲人:王成军,来自南京大学新闻传播学院计算传播学实验中心,Ogilvy数据实验室主任,以及计算传播、Web挖掘联合研究体成员。多篇计算传播学文章发表在SCI以及SSCI杂志上,包括Scientific Reports、PLoS ONE、PhysicaA、Cyberpsychology等。
课程链接:《计算传播学简介》,来自集智学园,课时60分钟。
课程背景:
AI时代,每一秒钟,整个互联网上就有 60 万条信息在 Facebook 上分享,2 亿个 Email、10 万条 推文被发送,571 个新网站被建立,1.9E(1018)字节数据被交换[1]。海量的信息不断涌现, 但是全球的互联网用户总数却仅有 30 多亿(截止到 2014 年底)。每个人的注意力是有限的,我们应该如何巧妙地穿透注意力的壁垒,让信息精准地传递到我们的目标受众?计算传播学会给你答案。计算传播是指数据驱动的、借助于人工智能,及其可计算方法所进行的传播过程,而分析计算传播现象的研究领域就是计算传播学。本课程尝试介绍计算传播的起源、概念和应用,然后从计算社会科学的角度对计算传播学的理论脉络进行了介绍,同时介绍了一些计算传播学研究的例子,总结计算传播学研究中存在的从数据到模式,再从模式到机制的研究思路,最后讨论一下可能的发展方向。
1. 计算传播学简介
计算传播是数据驱动的,借助于计算方法所进行的传播过程,而分析计算传播现象的研究领域的即计算传播学,应用上比如数据新闻、计算广告、媒体推荐系统等。作为一个崭新的研究领域,计算传播学是先有业界的实践,而后学界经思考诞生,它的提出和发展,是计算传播产业应用推动的。以互联网为例,互联网之所以能为大家提供各种免费的服务,核心的原因就是计算广告为企业创造了收入,计算传播在背后扮演着金主的作用。
先了解一下计算传播学在业界的应用。Netflix最初以邮寄电影光盘作为商业模式,这种邮寄光盘模式的影视传播本身就是一个数据驱动的过程。比如用户的持续使用行为与邮寄时间的长短强相关,如果用户对邮寄时间并不敏感,则仓库可建在郊区,因此仓库的地理位置必须通过对真实用户数据的计算才能决定。而后Netflix从邮寄光盘转型为流媒体,收集了丰富的用户观影数据并基于此建立推荐系统。
还比如谷歌的搜索引擎,最根本的技术在于PageRank算法,而这一算法的基本优化目标是通过计算评估每一个网页的传播价值,最终搜素结果的效果和质量更高了,使得谷歌超过了早期基于信息检索系统的搜索引擎。这个过程便利了用户的注意力流动,影响了媒介接触,传播效果更好。
算法的背后,最重要的驱动因素就是数据,数据主要来自于人类使用数字媒体时记录下来的数字痕迹。用户打电话、发短信、浏览网页、观看数字电视、微信朋友圈……所有的这些行为都可以被详细记载,形成用户属性数据和行为数据,进而做进一步的分析和研究。
有了数据之后,需要有合适的计算方法对数据进行分析,计算方法使得沉睡的数据宝藏觉醒。传统的有社会统计方法,而针对大规模的互联网数据,又发展了一些新的计算方法,比如机器学习(深度学习)、自然语言处理;数学方法如数学建模、数值模拟;物理方法如建立物理模型;计算机仿真方法如多主体建模……整个计算机方法变得更为丰富和多样。
同时,计算方法需要深入到模型的高度,才能发挥更好的作用。以谷歌为例,谷歌放弃了将一个个网页看作是孤岛的思维方式,将网页当作节点,节点之间通过超链接(hyperlink)连接起来,一个网页指向另一个网页其实就是在投票,节点的重要性来自于网页之间的投票,PageRank算法本质是一个崭新的网络模型。
2. 引入计算社会科学的视角
2009年,发表在science上面的一篇论文:Lazer et al(2009)Computation social science,提出一个崭新的领域:计算社会科学——它以网络科学作为研究视角,收集大规模的数据,并对数据进行分析,好处是能够揭示个体和群体行为的模式。
早在2007年,计算社会科学的领军人物、网络科学的研究者D. Watts在Nautre上发表论文:二十一世纪的科学,它所指的二十一世纪科学就是计算社会科学。D. Watts认为社会现象之所以是最难解决的科学问题之一,在于社会现象中卷入了海量的异质性个体以及个体之间复杂的互动。而现在能够更好地对社会现象进行研究,是因为互联网让我们有了针对人类行为的海量数据记录、基于互联网的实验以及互联网公司与研究。
If handled appropriately, data about Internet-based communication and interactivity could revolutionize our understanding of collective human behavior.
采用计算社会科学的研究视角,有很多有趣的应用。
比如根据Facebook数据研究选举行为是否可以通过社交网络传染,即朋友投给谁是否会影响你;通过研究电信网络,计算网络中每个节点传播的多样性,再跟当地经济社会地位做关联,可以发现传播的多样性会制约当地社会经济的发展;对人类语言、文本进行研究,采用自然语言处理的方法做分析,比如做情感分析,会发现在感恩节、情人节等节日人们都比较快乐,而明星去世、911庆典等人们会比较悲伤。进一步,人的情感状态又会对股票市场的涨落有影响,就可以用来预测股票市场的涨跌;对Google相关搜索词累积并建立时间序列,抽取相关词语建立机器学习模型进行预测,如根据感冒相关的搜索词进行流感的预测Google Flu Trend。
以上这些应用引发了对计算传播学的另一种定义:计算传播学是计算社会科学的一个分支,采用计算社会科学的研究视角、方法、理论、框架来思考和研究问题,致力于采用计算方法和大规模的数据分析人类传播行为中的重要问题。
3. 计算传播学关注的问题
对于计算传播学,备受关注的有四个焦点问题。①计算传播本身是否真的有比较好的预测效果;②计算传播如何推动大问题、大理论、大数据的融合,能否帮助理解复杂的人类群体行为;③计算方法在传播学研究中是如何应用的;④如何将计算传播应用于实践或者说如何发挥其商业价值。
a. 传播学可计算性和可预测性
看回传播效果测量的例子,对于传播效果的测量更多的是短期效果,因为对于长期效果难以测量。以新闻扩散研究为例,所研究的议题往往是总统遇刺等突发的重大新闻事件,如Miller(1945)《一个大众传播研究笔记:我们的社区怎样指导罗斯福总统的死讯》,研究者采用问卷调查的方式请采访者回忆并填写相应情况。这种研究存在很多问题:调查的范围有限、突发事件不能事先做准备、人们会遗忘很多东西,因此传统的研究方式受到很多局限,而数字媒体时代给了我们更多的视角和可能,在新闻扩散、虚假消息扩散等方面可以有更多的研究。
可计算性是一个计算机领域的概念,它关注事物本身可以被计算的程度,试图找到算法&计算函数来描述问题,如果比较容易找到这个函数就是可计算性比较高的,反之就是可计算性较低的。计算思维在这个过程中做三件事:从概念的角度对任务进行抽象、分解与自动化实现。下图展示了各个学科的可计算性,横轴是学科发展时间、纵轴是可计算性的程度。
第一集团:自然科学,包括物理学、化学、生物学等。产生时间比较久远,可以被计算的程度很高。
第二集团:社会科学,包括心理学、经济学等。产生的时间很短只有两百多年,社会现象本身比较复杂,必须做很多粗略化的处理。比如经济学,把各种复杂的经济现象抽象为货币,采用货币来衡量所有行为(经济现象、社会福利、家庭关系),这可以被很好地计量,使经济学得到了很好的发展,但同时也存在很多问题。
第三集团:计算机科学,包括自然语言学、统计语言学、网络科学等。产生的时间非常短,但因抽象程度非常高,如计算机将世界抽象成0-1,因此发展非常快。
传播学作为各个领域交汇的十字路口,借鉴了很多领域不同的研究方法,尝试将各种复杂的问题变成可计算可衡量的问题。
此外,还有一个可预测性的问题。人类社会的很多问题是不可预测的,我们发展了大量理论来解释很多东西,但却难以去做预测。以下分享几个尝试做预测的研究项目:
音乐市场研究:音乐流行除了跟质量相关之外,还与哪些因素相关。考察的一个重要的维度是社交影响,即朋友之间的相互推荐会不会影响音乐本身的流行程度。研究只要加入social influence的维度,对于音乐的排名会变得更难预测,对应到现实生活中是完全一致的。
信息扩散规模的预测:根据社交网络上信息内容、发信人、朋友有哪些,进行信息传播扩散的预测,经过哪些人,扩散数多少。扩散规模的分布是幂律分布:扩散规模小的数量非常非常多,绝大多数信息都无法扩散出去。D. Watts研究发现预测准确度不超过45%,另一种研究方法是偷看部分答案,比如一条信息扩散会有10000步,我们先看前10步的扩散情况。如下图中,如果提前看在前25个人的传播情况,预测准确性就可以达到80%,前100个人就可以达到超过85%的预测准确性。因此信息扩散的规模虽然很难预测,但偷看一下前部数据的扩散情况会使模型的预测效果大大提升。
b. 计算传播如何推动大问题、大理论、大数据的融合,能否帮助理解复杂的人类群体行为
费曼对社会科学有一个评价,认为社会科学是伪科学,有科学的形式,但不遵循人类行为背后的法则和规律。
“It puzzles me that geophysicists show little interest in underlying principles of their science. Perhaps they take it for granted that the earth is so complicated and messy that no general principles apply."——Per Bak
这是物理学的研究模式,不仅满足于数据,要从数据出发往上走,走到模式、机制,最后到一般性的法则。这种模式对世界的认识是非常理想化的、完美的,所以最完美的世界都存在于理论世界的,现实世界是对理论世界不完美的模仿。以引力研究为例,一共有五重境界:拖累米、哥白尼理论研究——到第谷数据研究方式——再到开普勒数据建模——再到牛顿从机制上研究——最后到伽利略、爱因斯坦拓展到普适法则。
再看网络科学,从欧拉创立图论理论开始,接下来学者就建立各种理论:先是认为世界是随机网络,人和人相识是缘分,是随机的;后来又有了小世界模型,认为人和人之间有长城链接有很多共同的朋友,如六度分隔理论;另外还有幂律分布BA模型相关的理论,对人类社会的长尾现象进行解释。虽然得出了一些理论、模型和机制,但却无法继续往前研究,得到普适性的法则。
社会科学虽然不能遵循物理学的那一套研究路线,但仍然有一些比较重要的定律存在。比如异速增长定律,观察生物生长过程,比如招潮蟹,两个眼睛之间的宽度和钳子之间的宽度随着长大的过程能够看到是高度相关。拓展到生物体积和新陈代谢、城市生长的过程中人口和GDP关系、互联网社区活跃人数和网站内容生产量,都满足异速增长定律,并且这种关系跨越时间、跨域空间、跨越物种。
c. 计算传播学研究的应用
理论只是一棵树,树有各种各样的形态,理论不是万能的,理论只是思考世界的一种方式。应用过程可以看成是瓶子与酒的关系:有旧瓶装旧酒、旧瓶装新酒、新瓶装旧酒、新瓶装新酒。
统计发现,80%的研究都没有产生新知识,只有20%的研究可以;80%计算传播的研究是由其他学科的研究者做的,只有20%是由计算传播领域的学者做的。
d. 计算传播的实践和商业价值
实践层面已经有比较多了,比如数据新闻、计算广告、媒体推荐系统。
数据新闻或数据驱动新闻是计算传播学在新闻生产过程的应用,用于数据叙事的工具、技巧和方法,涵盖了计算机辅助报道、数据可视化、新闻应用等一切叙事形式,具体包括运用各种技术软件来抓取、清洗、分析、呈现数据并分析其传播效果。它是数据驱动的,以开放数据为基础,为公众提供更重要、更有参考价值的报告,更深刻地理解世界。
计算广告是通过拍卖的方式实现最大匹配,即”社会最优“。常见的拍卖机制有广义次价拍卖机制、VCG拍卖机制、机器计算驱动的社会计算。
"Find the best match between a given user in a given context and a suitable advertisement."—— Andrei Broder.
媒体推荐系统有社会化推荐——即朋友推荐物品;基于内容的推荐——基于用户已经消费的物品内容推荐新的物品;协同过滤——基于人的相似性和物的相似性做新闻推荐、电影、音乐和商品推荐等;隐语义模型;基于图的随机游走算法;深度学习等。
4. 计算传播学的发展前景
现在面临的一个情况是社会科学进入丛林,理论就是一棵树,太多太密了,形成了一个丛林。而且鱼龙混杂,很难判断哪些是好的,哪些是劣质的。社会学需要从依赖常识的现状中走出来,去做预测。
因此计算传播学研究就需要有一套新的学科研究方式,从社会问题出发,收集大规模数据,采用计算机算法物理学模型来研究,进而从大问题向大理论发展,分析背后的机制、模式和尝试探索普适性法则。
最后总结一下,计算传播学是计算社会科学的重要分支,主要关注人类传播行为的可计算基础。以传播网络分析、传播文本挖掘、数学建模等为主要分析工具,大规模收集并分析人类传播行为数据,挖掘人类传播行为背后的模式和法则,分析模式背后的生成机制与基本原理,最终达到预测人类行为的目的。
书籍推荐:
- 《Bit By Bit》
- 《Networks Crowds And Markets》
- 《社交网络上的计算传播学》
相关研究和参考文献:
- 《大数据会暴露你的社会阶层吗——社会阶层对线上和线下空间移动轨迹的影响》
- 《贫穷限制了你的想象力——移动阅读内容与社会阶层的关系》
- Lazer et al(2009) Computation social science. Science
- D. Watts, A twenty-first century science. Nature 445, 489(2007)
- Robert M. Bond et al. A 61-million-people experiment in social influence and political mobilization. Naure. 2012
- Nathan Eagle, Michael Macy and Rob Claxton: Network Diversity and Economic Development, Science 328, 1029-1031, 2010.
- Miller(2010) Social scientists wade into the tweet stream. Science
- Bollen (2011) Twitter mood predicts the stock market. JOCS
- Ginsberg et al. (2009) Detecting influenza epidemics using search engine query data. Nature 457, 1012-1014
- Blumenstock, Joshua E., Gabriel Cadamuro, and Robert On. (2015) Predicting Poverty and Wealth from Mobile Phone Metadata. Science 350(6264): 1073-6.
- Jean, n., Burke, M., Davis, W. M., Lobell, D. B., & Ermon, S. (2016) Combining satellite imagery and machine learning to predict poverty. Science, 353(6301), 790.
- Salganik, M. J., Dodds, P. S., &Watts, D. J.(2016) Experiment study of inequality and unpredictability in an artificial cultural market.