作者:微软亚洲研究院研究员袁进辉
WWW 2015(24th International Conference of World Wide Web)大会于2015年5月18日至22日在文艺复兴的摇篮--意大利佛罗伦萨举行。我们微软亚洲研究院人工智能(Artificial Intelligence (AI) Group)组与卡内基梅隆大学(Carnegie Mellon University,CMU)的邢波(Eric P. Xing)教授合作的论文“LightLDA” 被本届大会录用,我有幸作为代表参加本届WWW大会并介绍我们的研究成果,也因此亲身经历了这样一个称得上“神奇”的会议。
今年大会的地点设在了佛罗伦萨市中心的巴索古垒。这座古堡建于1534年,是典型的文艺复兴式建筑,原本是美第奇家族为了保卫城邦而建设的防御工事,经现代改装后成为很别致的会议展览场所。程序委员会主席则是来自马克斯-普朗克研究所(Max Planck Institutefor Software Systems)的Krishna Gummadi和伊利诺伊大学厄巴纳-香槟分校(UIUC--University of Illinois at Urbana-Champaign)的Chengxiang Zhai。
面面俱到的Web界旗舰会议
借用大会主席在大会闭幕式上罗列的一些统计数字来对WWW 2015有一个全貌的认识。
今年的大会除主会外,还包含一些Workshop(研讨会)和Tutorials(教程)等序列,各个序列投稿和录用比例、大会覆盖的主题及对应的投稿数可参见上表。
众所周知,WWW大会的一个特点就是主题多样,所收录的论文几乎覆盖与Web相关的方方面面,而每个主题都有其所对应的顶级国际会议,譬如KDD, SIGIR, CHI, ICML, STOC, EC等。如此丰富多样的主题也让参会人员更容易接触到一些新奇或迥然不同的思想,从而更有利于做出跨学科的研究成果。难得的是,WWW在主题如此“分散”的情况下投稿众多,但大会录用的稿件仍保持很高水平的质量。可以说,能被WWW录用的文章几乎一定能被其他国际会议录用。而从Research Track的录用率来说,WWW仍是一个竞争比较激烈的国际会议。
万维网自诞生之日起,已经发生了翻天覆地的变化,信息展现方式从静态到动态,从无结构化到有结构的组织,也变得越来越能为我们所用。WWW作为万维网领域的旗舰会议,也在随着历史的发展趋势不断演进着、关注着新颖的潮流,同时始终致力于根本性问题。而工业界对WWW也是一如既往的重视,从大会赞助商和会场的展台来看,几乎所有互联网巨头都在WWW会场设立了展台。
日渐壮大的中国研究力量
根据大会组织方的统计数字,今年参加会议的人数创历史新高,达1567人。下图展示了各国参会人数所占的比例。令人欣慰的是,中国位列前三,仅排在美国和主办国意大利之后。
(值得一提的是,上图是我使用Microsoft Office Lens拍摄并自动校正视角后得到的。当我用这个APP拍照时,还引起旁边同行的兴趣,问我使用的是什么APP)
大会主席还给出了更细致的国别统计数字,包括各国投稿及被录用稿件的数量,以及各国程序委员会委员的数量,中国都位列前三。由此可见,中国大陆的研究人员已经形成了一股不可忽视的力量。不过,在研读论文的过程中,还是能感觉到一些差距,来自中国的论文多数是研究比较经典或较成熟的问题,开创性、求新求异上还不够好;与此相反,欧美的研究成果通常在创意上更胜一筹,在选题上有一种不受约束、挥洒自如地感觉。
“经得起时间考验”的论文
除了往届大会上惯有的最佳论文奖、最佳学生论文奖(第一作者必须是博士生或博士后),本届WWW大会还添加了一个“最经得起时间考验奖”(Test of Time Award),颁发给经时间证明具有深远历史影响的论文。
各类获奖论文如下:
最佳论文奖:基于贝叶斯方法的行为踪迹假设比较 (HypTrails: A Bayesian Approach for Comparing Hypotheses about Human Trails)。
最佳学生论文奖:秘密,谎言和账户恢复:Google在私人知识问题使用中获取的经验(Secrets, lies, and account recovery: Lessons from the use of personal knowledge questions at Google)。
而“最经得起时间考验奖”毫无争议地颁发给了Google创始人Larry Page和Sergey Brin发表在第七届WWW上关于Google搜索引擎的开创性工作——“大规模超文本网络搜索引擎解析”(The anatomy of a large-scale hypertextual web search engine. Proceedings of the Seventh International Web Conference (WWW 98), 1998.)。
对于这样重量级的工作,是否得奖已不再重要,相反,WWW曾发表过这样的文章且能把这个奖项颁发给它无疑是WWW自己的荣耀。其它获得最佳论文奖提名的6篇论文可参见:http://www.www2015.it/award-papers/
与阅读获奖论文相比,评奖过程更有意思。首先由领域主席提名,或者大会主席选择评分较高的论文,最终大会主席根据论文的原创性和可能对WWW产生较大影响的论文进行评选。原创性和潜在的影响力是最关键的因素,我理解,原创性更好判断一些,而潜在影响力则很难预测。假如你是WWW的大会主席,负责挑选出最可能产生巨大影响的论文,你会选哪一个呢?
训练主题模型的“最快”算法
今年的大会关于“主题模型”的论文有好几篇,我们的论文研究——LightLDA:基于中小型计算集群的大规模主题模型(LightLDA: Big Topic Models on Modest Computer Clusters)是其中比较醒目的。
LightLDA论文报告了我们设计的一种训练主题模型的新算法。这个算法相对于已有LDA学习算法在效率上有一个数量级的提高,每个词的Gibbs采样复杂度达到了均摊O(1),是首个达到单个词常数复杂度的Gibbs采样算法,堪称当今“最快的算法”。而且基于CMU邢波教授组的Petuum参数服务器,我们实现了该算法的分布式版本,可以在数十台机器上完成比以往成百上千台机器还要大很多的训练任务。LightLDA首次在中小规模集群上实现了对Web-scale数据的学习,这无论对Web应用还是分布式机器学习的研究都带来了新的可能性。
从应用角度上讲,LightLDA提供了一种超大规模矩阵分解的轻量级方案。虽然LDA已经是一个比较经典的问题,但解决Web-scale的训练问题也是一种创新,这种随机采样的算法特别是相对于梯度下降算法来做矩阵分解通信开销更小,期待LightLDA在工业级推荐系统/用户画像里可以得到更多应用。
除了LightLDA外,其它几篇搜索引擎的“排序学习”相关论文也各自提出了一些新颖的思路。如来自俄罗斯的搜索服务提供商Yandex的论文“个性化网络搜索中对相关性标签赋权的优化框架”(An Optimization Framework for Weighting Implicit Relevance Labels for Personalized Web Search),讨论了在排序学习(Learning to Rank)框架中,用户反馈不再是二值的点(click)或不点(not click),而是引入更多隐式反馈信息,形成多个层级更加精确的标注信息,感觉很有新意。Yandex的工作通常都是在传统问题上深耕细作,能有创意想法的突破,也着实值得敬佩。
另外论文“利用多臂赌博机模型从产品搜索排序中收集额外反馈信息”(Gathering Additional Feedback on Search Results by Multi-Armed Bandits with Respect to Production Ranking)把搜索广告中“求精和探索”(Exploitation and Exploration)的思路引入搜索排序学习中,从而使得更多页面能收集到用户的反馈信息,比单纯的“求精”(Exploitation)思路要更好。该论文也入选了今年最佳论文的候选。
潮流前沿的“神奇”会议
之所以一直在说WWW是一个神奇的会议,是因为它带给我的感受与其它学术会议的风格不太相同。首先,WWW的主题多样,每个主题下面有十数篇文章,虽然都和Web相关,但跨度很大。其次,WWW的另一个特点是论文的主题都很新奇,经常能看到一些论文在做前人从来没做过的事情。最后,WWW不是纯理工色彩,还有一些人文趣味在里面,譬如有不少语言学和社会学的文章。与WWW同时举行的一些研讨会也是潮味十足,今年的会议上就能看到关于创业、风投、医疗健康、伦理和大数据等相关的话题。
本届WWW上有一大批关于社交网络和图算法的论文,应该是很有代表性的。比如,为保护儿童健康成长,通常人们不鼓励儿童上社交媒体。但家长们却总是乐于在社交媒体上发布自己孩子的信息,也就是我们通常所说的“晒娃”。“大人讲话,小孩儿别插嘴:当父母伤害儿童的在线隐私时”(Children Seen But Not Heard: When Parents Compromise Children’s Online Privacy)中的研究则表明,晒娃有风险,家长须谨慎——根据家长在Facebook上发布的关于孩子的蛛丝马迹,就可以给小朋友建立完整的信息“画像”,使得隐私全面泄露,带来潜在风险。
而“事件与争端:骇人听闻的新闻事件对人们信息获取行为的影响”(Events and Controversies: Influences of a Shocking News Event on Information Seeking)则以人们对“美国控枪”问题的不同立场为例,说明搜索引擎虽然方便人们获取更全面的信息,但并不会让人更加开放包容——人们更喜欢去搜索支持自己已有观点的信息,并不愿意去挑战或拓展我们世界观的信息。这项结果同样来自卡内基梅隆大学与微软研究院的合作。
“落后区域的网络访问流量初探”(A First Look at Tribal Web Traffic)这篇文章关注的内容则并不前沿,也不主流,而是把目光放在了美国落后或欠发达地区的网络及社交媒体的使用状况。即使像美国这样的发达国家,仍有一些地区网络基础设施不完备,人们使用网络服务并不便利。研究发现,落后闭塞地区的人们也有对网络社交娱乐的需求,而且表现出一些独特的规律,譬如本地化的内容参与度更高,参与活跃度通常会持续更长时间等。
令我印象深刻的是一项为盲人服务的研究“易于(盲人)使用的在线楼层平面图”(Accessible On-Line Floor Plans)。人们逛商场或博物馆时,通常在入口或关键地点能看到房间户型图,方便用户快速找到目的地的路径,但这些设施并不能为盲人服务。这篇文章便针对这个问题,提出了一种自动把一张房间户型图转换成盲人可用的导航图的方法并且开发出了App。这应该算是一个很小众的需求,并不具有很高的商业价值,但作者如此细致周到的考虑着实令人感动。
更“小资”的还有自动给城市里每一条街道是否适合漫步进行打分的研究——“在惬意街道漫步的数字式生活”(The Digital Life of Walkable Streets)。它考虑安全、优美、惬意等因素,研究成果可用于酒店预订服务,市区导航推荐路线等场景,颇具生活味道,然而我想到的则是更适合恋爱中的人们。
更多有意思的论文你都可以在网上的会议论文集里免费看到全文。
“全,新,奇,深”是我对WWW 2015大会的定义。主题覆盖全面,追求原创,标新立异,不局限于求解问题的具体技术,还经常有一些对问题本源的考察和思考,具有“术”和“道”的均衡,个人非常欣赏这种风格的国际会议。期待未来看到更多新奇的研究可以帮助我们的生活和工作。