目录
- 序
- 一些人
- 一些想法
- 一些有趣的事物
- 一种可能的未来
序
2014年11月11-13日,我到巴塞罗那参加了一个社会信息学会议。社会信息学 (Social informatics) 是一个有点年代的词,现在已经有更流行的表达,叫计算社会科学(computational social science)。这个会议主要讨论社会科学家如何利用大规模数据和算法来研究人类行为。
记录中我隐去了人们的英文名。对复杂网络和计算社会科学了解的朋友,自然知道这些人是谁;不了解的朋友,也不至于因为看到不熟悉的英文名而产生距离感,只当是小说看便可。
一些人
梅西
梅西的眼睛大小不太对称,这使得他笑容里有一种努力生活的倔强。他的满头银发在会议中格外显眼。射灯照耀下,仿佛一顶王冠。这种嘉宾的作用类似于纪念碑与扩音器:人们承认他们一生的奋斗和挣扎,期待他们把众人皆知的事实再大声重复一遍,使听众更坚定地相信自己站在历史正确的一边。
梅西引用瓦茨的话说,大数据之于社会科学,好比是望远镜之于天文物理:带领我们看到前所未有的世界,迈过人类行为研究的历史新起点。过去半个世纪里,我们一直使用基于问卷调查的数据研究人类集体行为。这是个错误。个体不是孤岛,个体属性也难以解释人际互动。
他做了一个对比试验,使用来自问卷调查和社交媒体记录的两份数据解释美国人的政治倾向,可以讲出两套完全不同的故事,后者比前者更符合逻辑,从数据统计上看也表现更好。
他又介绍了自己的计算机模拟模型:完全不需要考虑年龄、性别等变量,引入简单的行为互动规则,就可以发现人们在一个理论空间中从随机位置出发,最后聚成两团。因此政治立场的两极分化现象,可能仅仅靠互动就能产生。
他的团队还开展了一些研究,使用社交媒体和手机的百万用户规模数据集来验证一些社会学经典理论,例如格兰诺维特的“弱连带的强优势”以及亨廷顿的“文明的冲突”,等等。
梅西讲了快一个小时。毕竟年纪大了,激情难掩疲惫,语速渐渐慢下来,声音也逐渐低沉。在同龄人中,梅西看到了更远的未来。这使得和他一起成长的社会学家们都逐渐被淘汰,他却仍然可以站在台上。
然而他所看到的这个未来,毕竟不属于他。他批评传统方法,又渴望与经典理论对话。他的恨和爱、敌人和朋友,都属于正在逐渐消失的那个时代。我想起摩西,他带领以色列人在旷野中走了四十年,最后在终点的前一站死去。
提问环节我问梅西,社会科学家常说自己的研究是为了理解人类行为,但如果我们真的已经理解人类行为,为何无法预测呢?
梅西愣了一下,说这是个很尖锐的问题。他认为,对人类行为的研究,按照应用价值由弱到强可以分为三种,理解人类行为的某一方面,但不足以做预测;见微知著预判社会的发展趋势;和高精度的预测。传统的社会科学是第一种,现在流行的机器学习方法是第三种,他更愿意把自己放在两者之间。
这真是个聪明的回答。但从中也能看出梅西以及许多像他一样,受传统训练,却面临时代变革的社会科学学者们的纠结。
瓦茨
瓦茨是澳大利亚人,但有一种北欧科学家的强势和冷静。眯起眼笑时眉宇间闪烁自信光芒,有点像美剧《越狱》里的弟弟。我身高一米八一,这个传奇人物站在我面前比我还高半个头,给我带来极强的压迫感。我不由自主地挺直了身体。
瓦茨是个物理学家,十五年前以小世界一文成名。在哥伦比亚大学社会学系用十年将正常人一辈子的路走完,做到了正教授后离开学校。现在在微软主持社会计算实验室。
他的报告主题是计算社会科学的机遇与挑战。这个人确实经历丰富,聪明异常。听他介绍研究思路,令人心旷神怡,好像和乌燕鸥一起掠过辽阔大洋。
报告一开始就指出,传统的社会科学研究存在局限。以信息扩散为例,第一个问题是只研究成功的案例,不考虑失败的案例;第二个问题是只研究基于人群的总体统计,不研究个体之间的互动。例如有理论认为被信息影响人数随时间增加是个S形曲线。其实这类结论意义不大,因为不管个体之间如何互动,总能得到S形曲线。真正重要的是信息在个体间扩散形成的网络结构。这两个局限都是数据搜集上的局限。但是在互联网上的大规模个体行为数据出现后,这两个问题都被解决了。
他的一个研究区分了病毒传播和大众广播两种网络结构。前者形成明显的层级结构,信息不断被转发,逐层传递;后者则是一个单一信息源,不断对不同人重复播放信息来实现传播。但不管是哪一种模式,受影响人数随时间增长总是S曲线。
他还干过一些很有第谷般美感的扎实重要的活。例如他使用了六大社交网站的数据,将数千万个信息传播事件按照传播网络结构分成几类模式。他发现,这几类模式的出现概率,在不同网站内是差不多的。例如,步长为1的传播事件出现概率大致为99%。他说,现在对于任何信息传播事件,我们都可以实现99%的预测准确率:它们总是在一步内结束。
这当然是玩笑,但这是一个意味深长的玩笑。他指出,当我们谈论信息传播时,我们真正关心的是小概率的大范围传播事件,而这几乎注定是不可控制和预测的。此外,因为90%的信息接受行为都是直接受到信息源影响,因此从营销的角度,大众广播比病毒传播更有效。
介绍完他使用大规模数据集对信息扩散的研究后,他总结了大数据的局限。在使用大数据时,研究者不是从研究问题出发搜集数据,而是反过来看数据能回答什么问题,因此大数据并不总是能直接回答研究者真正感兴趣的问题。另外在大数据中很难获得清晰的因果关系。为了克服这些局限,有必要进行控制实验。
他为了考察组织结构对组织运行效率的影响,设计了一个游戏,不同组织结构的小组被要求摸索一个三维空间。组员只能看到局部地图,需要彼此沟通来共同探索全局。最后小组合力找到的最高峰越高,得分越多。实验发现信息不对称的组织结构反而有利于分工合作。组员之间完全平等自由地交流,效果并不好。
他又指出,控制实验也有自己的局限。参与者在实验室的人造环境内完成指定任务,与真实社会差别极大。因此他做了一些开放环境下的实验,把实验搬到真实的网络环境中,利用亚马逊的Mechanical Turk平台来外包任务。他开玩笑说,这种实验,最难的部分在于保证参与者按时出现。所以他设计了“等候室”制度:事先多招一些实验参与者,保证每个实验都有备选人员,一旦正式参与者没有出现,就派备选人员顶上。这让我想起腾讯游戏的类似制度。
他说,其实即使是开放环境下的实验,也很难令人满意。这些实验对于解决真正的合作型任务,仍然只是模拟,还不够真实。能不能设计出这样系统,使得人们既解决真正的问题,同时又在提供着实验数据?
他最近的一项工作是使用社交媒体进行自然灾害的实时监测和预测。他们构建了一个叫Standby Task Force的系统,组织全球志愿者通过人工标注的方式对自然灾害的损害情况进行实时标注,为政府和和非盈利组织的救援资源部署提供信息。最新案例是2014年8月对菲律宾台风的过境路线及损害情况的实时监控。
有趣的是,这个系统不仅具有实际功能,也同时是一个大实验室。瓦茨的研究团队在背后控制和观察着志愿者的组织方式。例如他们发现小的组织比大的组织能更有效地行动。小组成员超过32个人后合作成本上升非常厉害。另外,在小组的形成中,志愿者们会自发地形成不同分工角色。其中有些角色之间的切换比另一些角色更容易。
瓦茨说,这个系统现在正在持续工作着,不停地产生大量数据,好比一个天然实验室,为我们观察人类的分工合作提供了宝贵的资料。通过对这类资料进行研究,我们可以建立一个新的学科分支:“数字民族志”。
瓦茨像是一个科学游侠。纵观他的研究历史,经历了物理建模 - 数据挖掘 - 心理实验 - 社会实验 - 社会工程这几个阶段。他不断地使用新的方法,又不断突破着方法的局限。
在这样的背景下,他强大的研究执行力令我印象深刻。很多人能想出不少有趣的主意,但像他这样在不断学习应用新方法的同时,把略带新颖的每个主意都变成现实,还是比较少见的。这不仅需要高度的理解力和想象力,还需要管理科研团队必须的沟通和组织能力。
在茶歇期间,我向他介绍了我对信息扩散研究的新思路:集体注意力的几何模型。我说,在用户网络上研究信息资源的扩散有两个问题,一是系统中没有守恒量,二是用户网络的背景空间没有物理意义。但如果我们反过来研究集体注意力在信息资源之间的流动,那这两个问题就都解决了。一段时间内社会系统的总注意力接近常量,使我们可以写下方程来描述其流动;另外注意力的流动空间,其实是具有物理意义的特征空间。如果是标签系统,就类似于语义空间,其地貌就是人类的共有知识轮廓。这样,我们就可以使用经典物理在描述连续时空上的一些几何工具,来研究信息扩散了。这种理论,将会既优雅又实用。
我说的时候瓦茨听得很认真。说完后,他笑了,说你是物理系的吗。
我说我不是。我接受的是社会科学的训练,但我是一个物理学爱好者。
瓦茨说,经过这么多年研究,他不大相信一个理论可以既优雅又实用。大范围的信息传播现象本身就是小概率事件,受到大量不确定因素影响,要想给出简单的物理模型几乎是不可能的。即使这种模型存在,也一定有一个解释力上界。注意力在特征空间中的流动,这种想法或许值得一试,但要说简单的几何模型可以与同时考虑成千上万变量的机器学习模型在预测准确率方面较量,是令人怀疑的。
拉达
拉达的个人主页上有一张年轻时貌美如花的照片,成功地误导着全世界的人民群众。我第一天走进会场的时候,一个平易近人的美国大妈坐在边上。我说完借过后,觉得这个人有点面熟,后来想起来了,她就是拉达。
拉达与瓦茨的经历有些类似。加州理工物理系毕业,十五年前出道,跟随一个大名在HP实验室研究互联网中的物理规律。后来进入学界,在密歇根呆过几年,拿到终身教席后离开,现在在Facebook领导一个团队做数据挖掘。
虽然经历类似,但两人气场完全不同。拉达穿着一件旧套头衫,坐在人群中没有丝毫存在感。鱼尾纹已浮上眼角,笑起来却有少女模样。
拉达是下午做报告,但她上午就到了会场旁听。我在茶歇时,把我的注意力流几何化思路对她又说了一遍。她向我提起了乐曼,一个南加州研究信息传播的女大名。乐曼的东西我看过,和我说的东西不太一样。她只是使用了信息资源间为争夺集体注意力而进行竞争的概念,并没有明确指出可以构建注意力网络并将之嵌入特征空间,更不用说几何化了。聊了一会后,我看出拉达脸色有点差。她告诉我刚下飞机,还有点时差影响,脑袋有点晕。
或许是她回宾馆午休了,或许是她的职业素质使然,到了下午她一站上讲台,整个人忽然熠熠生辉了。拉达的报告也是信息扩散,同样给人绝妙享受。但这次不是在大洋上翱翔,而是好比端坐松下,溪水叮咚,清风徐来。
她利用Facebook的数据的优势,做了大量的实证研究,来考察影响信息传播的关键因素。结论是时间(已经传播的将会继续传播)比结构重要,结构比内容重要。如果综合考虑所有因素,对于大规模传播事件的下一步传播范围的预测可以达到接近80%的精度。但这是实时机器学习并预测的结果,要在事件尚未爆发时就进行预测,正如瓦茨所言,几乎是不太可能的。
她讲完以后,我走过去由衷地称赞她讲得很好。信息扩散是一个容易做得很琐屑或者脱离实际的主题,但她做得东西确实既重要又有趣。她再次露出了与年龄不符的纯真微笑。这令我印象深刻,像她这种大名,居然还会因为路人点赞而高兴。
丹尼
来自巴塞罗那的雅虎实验室的丹尼介绍了一个思路诡异的城市导航系统。通常来说,导航的目的是找到两地之间的最短路径。他设计了新的导航系统,除了最短路径外,还可以告诉大家“最美丽”,“最快乐”,“最安静”,“最怀旧”等路径。
这种导航的核心技术是将地理位置与人类集体情感进行关联。基础数据包括两个部分,一部分是对用户在该地理位置上传照片的文字标签进行情感分析;另一部分是利用前一类数据进行训练,使得机器可以自动对无标注照片进行情感分析,例如训练中发现,“孤立的大楼”,“繁忙的交通”给人带来负面的情感,而“绿色的草地”,“湖水”,则给人以正面的情感。
丹尼说,机器智能让人类社会越来越高效,但许多时候,大家并不开心。衡量一个城市,一个国家是否成功,不能仅仅看创造了多少物质财富,更需要看生活在其中的居民是否开心。
丹尼说,我希望我的工作能使普通人更开心。
德克
其实我算是德克的粉丝,但在他来作报告之前,我并不知道这一点。
城市的异速增长,疾病传播的有效距离,文化历史的网络模型, 科学研究关键词的迁移。近年来许多描述人类集体行为的漂亮模型,背后都有德克的影子。但几乎在每篇论文里,他的名字都挂在中间不起眼的位置上。直到他在报告中展示了许多成果,我上网查了一下,才被其涉猎之广所震撼。
德克现在是苏黎世联邦理工学院社会学系的主任。身高一米九,留着星际迷航里斯波克的奇怪发型,透着一股典型的北欧精英气质。一个社会学系能让德克这种物理学家领导,令人吃惊。
德克的讲座气势恢宏。
人类历史的几次技术革命以及随之而来的人力资源在产业间重新分配。世界各个国家所处的产业链位置及发展预测。人类的各类行为:交通流动、舆论形成、冲突合作、文化变迁、资源消耗、疾病传播,所对应的物理学模型(而他的名字都列在其中)。
古今几千年,环球数万里,最后终于到了本次报告的核心。他呼吁大家加入他主导的计划:行星级神经感知系统。加入的方式很简单,就是大家注册自己手机,并保持开启传感器,不停地传输数据到服务器。数据将被匿名化处理后在欧盟法律的框架内使用。
这些数据,德克说,将会使我们对人类社会的认识上升到一个全新的高度。例如下图,展示了意大利米兰志愿者的手机GPS数据是如何被分析的。左图是数据全集用户移动距离的长尾模型,但通过对移动路径进行聚类,可以识别出三大类不同的工作-家庭往返路径。这三个子类里,移动距离都是正态分布的,这说明对于每一类人群的移动行为,都存在有代表性的平均描述。这种分析,对于优化交通系统非常有帮助。而对人类移动行为的分析,只是在我们有了手机各项传感器的数据后,可以做的许许多多事情中的一小项。
德克的报告让我非常感概。以前也听说过欧美科研体制极为不同。前者是是大军团集中作战,后者是小团体分散作战。欧洲经常有一些超大型项目,比如历经近十一年,耗资十多亿欧元的罗塞塔号项目;历时三十多年,耗资四十多亿欧元的大型强子对撞机。其实类似的项目美国都考虑过,但最终议会无法审核通过。而欧洲的这些大手笔投资也都得到了回报:去年(2013年3月14日)欧洲核子研究组织公开确认了希格斯粒子的发现;上周(2014年11月12日)罗塞塔号终于实现了人类首次登陆彗星。这种浩大工程的成功,与德克这种充满野心又具有高度执行力的科学精英是分不开的。
德克的报告结束后,我找到德克又把集体注意力的几何结构说了一遍。他表示了高度的兴趣。我也感觉到他比瓦茨和拉达都更能理解和认同我的思路,可惜的是由于有其他事情要离开,他无法出席我的报告了。他建议我把报告的材料发给他。
法布
在飞机上我正在临时抱佛脚地准备幻灯片,有个人从背后捅了我一下。我转头看到一个留着披头长发,体态敦实,皮肤黝黑,眉毛浓密的中年男人。他说自己也去开这个会。他看过我的论文,觉得思路很独特。我们随意攀谈了几句。
法布是印第安纳大学社会学系的副教授。我怀疑他是印第安人。他身上有一种奇怪的让时钟变慢的气质。飞机上他坐我斜后方,我过一段时间再转头看他时,他已经把深蓝色的毛毯搓成长条,将自己眼睛包起来,身体斜抵在前面位子的坐垫上,双手垂在身体两侧,好像一个人质那样沉沉睡去。
会议第一天茶歇我遇到他。他向我抱怨时差问题很严重。我昨天睡了整整一天,现在还不舒服。他看上去有点忧郁。
会议第二天集体晚餐时我遇到他,他偷偷从包里掏出一件黑色的T恤给我看。上面有一只白色线条的海豚和一堆不知道是什么的几何形状。他说这是他逛街的收获。本来给女儿找礼物 - 她过几天就要生日 - 但没找到小号的,就自己买了。
我问他女儿几岁了。六岁,他笑起来。
会议最后一天,最佳论文颁奖。他用两只手气势恢宏地把长发从前往后一掸,变成了武状元苏乞儿里头发被周星驰打散后的赵无极,昂首走上主席台。原来他是委员会成员。他语速突然变快了很多,微笑着宣布获奖者,总结陈词,握手合照,一切都行云流水。
会议结束,走下台,他又变回蔫蔫的了。
我向他告别。他突然说,人们需要时间来理解你的研究。我们要保持联系。你的研究才刚刚开始,等有了新的进展了,一定要把论文寄给我看一下。
这是他第二次,也是最后一次提到我的研究。我感激地看了他一眼,转身离开。
凯莉
凯莉是斯坦福大学计算社会科学中心的行政秘书。在我动身前往巴塞罗那之前,凯莉就通过论文的共同作者王成军,联系到了我。她查看了本次会议的报告主题列表,选择了一些觉得有趣的研究主题和团队来做采访,打算做一个长篇新闻,并在他们研究中心的邮件组里发布。
凯莉是典型的加州女孩,今年二十四岁,没有开会的时候喜欢画着烟熏妆,穿着吊带背心满街跑。可以看出她正处从学生到职业人士的过渡阶段。从这个意义上说和我类似。
我们迅速成为了朋友,谈论着美国和欧洲的不同,学生与工作的区别。她们的中心是一个很有意思的地方,似乎在刻意打破正式课程与培训工作坊,教授与行政职员之间的边界。我们在许多问题上达成了一致,例如都认为计算社会科学不是社会科学的一个分支,而是一个过渡阶段。就好像信息技术改变生物学一样,未来大部分的社会科学都是可计算的。另外,我们也都相信开放大学和网络课程将打破原有的大学和学院体系,大学会变得更加去中心化。
一些想法
社会学理论的式微
在未来二十年内,可计算趋势将继续蚕食现有的社会科学各领域。现在计算机科学家与社会科学家合作时,还比较容易被社会学理论和一些大名唬住,但这个状况持续不了多久。大而无当的社会学理论们,在二十年内将像技穷的黔驴那样,被老虎吃掉。其实人们分辨出什么是好的研究,什么是差的研究是很快的,之所以需要二十年,因为这个时间是现在的博士生拿到教席,逐渐掌握科学基金分配和期刊论文评审等影响学科范式的权力所需要的时间。
一个自然而然的后果就是,像美国社会学评论和美国经济学评论这样的刊物和背后的学会,如果不及时转型,推出Open Access的,强调大数据与大实验的新子刊,还是像以前那样把对传统理论的梳理和考据当做是科研工作的核心,将面临被淘汰的命运。
下面举两个例子说明。
本次开会,在博士生报告中最令我印象深刻的有两位。一个是来自斯坦福的Bogdan State,他使用LinkedIn数据考察世界人才的跨区域流动。另一个是来自Rice State U的Lu Chen,她使用Twitter来研究美国人的宗教信仰。其中前者获得了最佳论文。
这两个研究显然意义重大,涉及了社会学中最核心的问题:职业与宗教信仰。在大规模数据面前,许多以前无法回答的问题都可以被直接解答。例如Lu Chen考察了人们是否更倾向于关注具有相同宗教信仰的人(是的);不同宗教信仰的人谈论的话题是否有区别(没有);从文本内容和朋友关系来预测宗教信仰,哪一个效果更好(后者)等等。Bogdan State发现,美国吸引到的人才在减少,而东亚地区吸引到的人才在增加。
在这两个案例中,寻求传统社会学理论的指导是意义不大的。大部分有意义的研究问题都被数据直接解答了,因此不必像传统社会学研究那样,靠日常经验,想象和逻辑推理来克服数据的匮乏。就像瓦茨和拉达的研究完全没有从社会学的信息扩散理论得到任意有意义的帮助一样,这两个研究也是抛开文献进行的。未来这种例子会越来越多。
以小博大的秘诀
科研的竞争,就好像市场竞争一样。小公司靠想法取胜,大公司靠执行取胜。如果小团队的想法不是若干倍好于大团队,就会被打败。
优雅的东西可以有用吗
飞机上有一个杂志广告引起了我的注意。这是一个叫做Serenity Pod的东西。有两个版本,大的给人睡,一万美金;小的给宠物睡,一千美金。我以前见过这个东西,但这次引起我注意的是广告语:“具备使用功能的艺术品”。明知是嘘头,还是有点感慨。
就像科学,最纯粹的科学可能真的是好奇心驱动,不知道有什么用的。但是作为一个科学家,如果自己做的东西既优美,又有实用价值,必然会产生非常强烈的满足感。同时从生存的角度,科研团队需要消耗资源,也必然要求科学家思考自己研究的应用价值。其实这未尝不是一件好事,有时候一些约束的存在,反而使创造力更强地爆发出来。
一些有趣的事物
毕加索艺术馆与高迪教堂
毕加索艺术馆和高迪教堂(当地叫神圣家族教堂)都去了,觉得高迪明显是比毕加索更伟大的人物。
毕加索确实很厉害,从古典的油画技艺出发一路探索,就像瓦茨那样不断克服自己的局限。从他的早期手稿中,可以看出他尝试从传统油画中剥离出一些要素,看看单就这些要素是否足以表达原有的主题。例如只保留光影,或则只保留线条。后来等到风格成熟,他已经完全可以脱离传统方法来表达更强烈的情感,但还是经常同一主题画好几遍。虽然这些画在旁人看来都是扭曲的,但什么样的扭曲效果最有冲击力,也是经过大量实验的。
如果说毕加索的大胆尝试使其成为现代艺术的重要部分,高迪的天赋则是不但脱离了他的时代,而且也不像是我们这个时代的产物。艺术家、科学家、建筑师高迪做出来的东西,有一种强烈的外星人黑科技的感觉。
在他的作品里,可以寻找到像植物果实和叶子装饰这样的经典元素,也可以看到很现代的使用极简主义的几何结构来表达人物的方法,还可以发现充满未来感的,将几何体变形的过程凝固下来当做是建筑部件的做法。大理石,玻璃,黄铜,被天衣无缝地拼接在一起,给人极大的震撼。
<img src="http://ww3.sinaimg.cn/large/e85abbb5jw1emg7kwacwej214g200kjl.jpg" height="100px" alt="一扇偏门的外饰,包含了繁复的细节" width="300px" /> <img src="http://ww3.sinaimg.cn/large/e85abbb5jw1emg7eef8fyj214g200hdt.jpg" height="100px" alt="马赛克玻璃窗户,颜色的过渡充满美感" width="300px" />
<img src="http://ww3.sinaimg.cn/large/e85abbb5jw1emg7woq7ymj21kw0vyaxc.jpg" height="100px" alt="Word Cloud并不是大数据时代才有的可视化工具,高迪已经用过了" width="400px" /> <img src="http://ww2.sinaimg.cn/large/e85abbb5jw1emg7x9wj50j21kw0vytuw.jpg"alt="另一种材质的Word Cloud" height="100px" width="400px" />
参观完位于地下的资料馆,了解了一些建筑部件是如何被制造出来的后,更令人赞叹。
<img src="http://ww2.sinaimg.cn/large/e85abbb5jw1emg7ry0ntdj21kw0vyx21.jpg" alt="以吊着沙袋的麻绳来展示悬链线" height="100px" width="400px" />
悬链线。教堂所有的拱顶都是悬链线,这个困惑了达芬奇及伽利略等人一百七十年,最终由伯努利弟解决的几何结构。在一个玻璃橱窗有一个装置,以众多吊着沙袋的麻绳来展示悬链线。这个装置的天花板是一面镜子,镜子里麻绳的倒影勾勒出了教堂的顶部形状。
<img src="http://ww1.sinaimg.cn/large/e85abbb5jw1emg7turjqoj21kw0vyqjj.jpg" alt="柱子展示了多边形的变形过程" height="100px" width="400px" />
变形柱。一个角落里有一根石膏柱,右侧六个角,左侧十二个角。有一个像齿轮一样的铁片在柱子上来回打磨,当铁片靠近角比较多的那边时,就逐渐旋转一个小角度。这样,一侧比另一侧多一倍角,而中间又是光滑过渡的。
<img src="http://ww4.sinaimg.cn/large/e85abbb5jw1emg7umzhgxj21kw0vyni7.jpg"alt="沙漏体" height="100px" width="400px" />
沙漏体。用麻绳在两个平行的铁圈间缠绕,而后进行浇筑。
<img src="http://ww4.sinaimg.cn/large/e85abbb5jw1emg7vevhebj21kw0vy4jg.jpg" alt="立柱骨节" height="100px" width="400px" />
立柱骨节。由多个MM豆拼凑而成,在没有计算机的一百年多前,不知道这个这个东西是怎么制造的。
边边角角
涂鸦
教堂
一种可能的未来
我认为,对人类集体行为的几何描述,将是非常有潜力的一个大方向。具体到我本次报告的内容,集体注意力的几何模型,也不是拍脑瓜想出来的,而是是我和Jake一起探索了若干年的结果。为
至于什么要走几何化这条路,我以前在集智俱乐部人工智能邮件组(欢迎加入)里回答过一个朋友的问题:
“复杂网络对于研究问题的优势在哪里呢?”
那个答案基本上把思路表达得比较清楚了。改编摘录如下:
以前的“主流”科学道路是还原论的。从基本粒子的运动规律出发,希望能一路解释化学反应,大分子,生命机理,心理学,社会运动。所以人类要花那么多钱在欧洲大型强子对撞机上,因为以为基本粒子搞定了,剩下都是details了。1987年美国做了几十亿预算要搞超级超导对撞机(SSC),就是被高能物理学家洗脑了,后来跳出来一个Anderson反对,最后国会撤资,项目下马了。
...
我觉得美国没有被苏联拖垮,就是因为有许多Anderson这种聪明人。他1972年的More is different至今被圣塔菲内部的读书小组列为25篇必读文献之一。这篇文章的观点就是反击粒子物理的霸权主义,说明我们关注的对象,能量级每上一个台阶,其计算复杂性增加的程度使得你根本没办法靠底层知识来理解这个层次的行为。所以说,More is different,科学得各玩各的,不能大家都看你高能物理学家玩,把全社会的钱都给你买玩具。
...
Anderson的思想很先进,也是比较早说涌现的人之一。但遗憾的是照他的看法,科学不可能统一了。这种放弃统一之路的挫折感是巨大的。一个真正的求知者必然面对这个问题:A unified theory of everything到底存不存在?寻找事物之间的差异,那不是什么伟大科学洞察,那是任何一个原始人都能做出的自然观察。古老的科学传统中最核心的地方,就是坚信世界是可以被以简单的方式理解的。
...
现在的复杂网络,就是另外一种道路的尝试。它使得我们对“涌现”的理解更深刻了。More is different, but massive is simple. 我们发现,当一个对象变得非常复杂的时候,把大量这种对象放在一起,本来应该是完全不可理解了才对,可是好像负负得正一样,它又变得简单了。复杂网络中到处出现的scaling laws,就是一个证明。
...
那么,这种新科学路的期待,对复杂网络研究的要求是什么呢? 天体物理经历了data - pattern (law) - mechanics (dynamics) - principle四个阶段(参考集智俱乐部成员王雄的报告《畅游理论物理的天空之城》)。现在复杂网络的阶段差不多是天体物理里开普勒的阶段,也就是pattern这个阶段。优先链接模型,小世界模型,都是mechanics的尝试,但并不成功,因为这些模型不能同时复现所有重要的pattern。所以下一步需要一个模型来统一解释所有重要pattern,也就是需要一个牛顿式的工作。
...
旧牛顿统一了天上的规律和地上的规律,新时代的牛顿要统一不同层次的复杂对象相互作用的规律。等新牛顿出现之后,要出现一个爱因斯坦式的人物,把这个动力学模型几何化,或者逻辑化。几何化的方向就是把动力学表达为结构,就像爱因斯坦把引力理解为时空弯曲一样。网络本身的动力学(节点和连边的加加减减)和网络上的动力学(疾病、信息、货币、能量在固定的拓扑结构上的传递)在新牛顿的模型里应该是已经被统一起来了的,而这个新爱因斯坦就要完成最终的任务,把这个统一的动力表达为某种几何结构。当然,实际进程可能不是这样,新牛顿和新爱因斯坦可能是同一个人,也可能是一群人,或者好几代人。现在的双曲空间下的网络演化模型,就兼具新牛顿和新爱因斯坦的味道,不过当然美感还差得远。
...
也有可能到时候计算理论突飞猛进,出现了一条和天体物理不一样的道路,到了新牛顿统一网络动力之后,不是走几何化的道路,而是走逻辑化的道路。人类对通用计算的本质完全理解了,哥德尔不完备定理的意义到时已经非常明确了,甚至工程化了。熵力不但成为主流,甚至人们已经找到了它背后的第一计算原理。于是,动力学被描述为一种计算的结果。
...
不管是动力学几何化,还是动力学逻辑化,最终的道路就是人类完全突破了经验世界的限制,因为几何=逻辑,都是从某种规范约定出发,完全是构造出来的人造物。在爱因斯坦几何化式道路那里,这种规范约定可能是对称性/各向同性,在图灵逻辑式道路哪里,这种规范约定可能是图灵等价。这两种约定,其实都是同一个朴素信仰在不同符号体系下的表达:我们相信看到的世界,不管怎么看,都是看到一样的规律。当然,这个信仰必须是科学的核心,因为不相信这个,就没有科学了。
其他相关内容,有兴趣的可以看我报告的幻灯片。幻灯片的最后一页,我为自己的免费电子书,Data Mining in Social Science,做了广告。这本书专门针对没有任何编程基础的社会科学学生,跟随本书的例子,可以学会如何使用Python来获取,分析,可视化互联网数据。
最后,欢迎中文世界的同学们持续关注集智俱乐部,关注计算社会科学和我们的人类行为几何化研究。