NLP(二)学习《DeepWalk: Online Learning of Social Representations》

0 介绍

DeepWalk把图作为输入,把生成的潜在表示作为输出。
DeepWalk通过随机游走获得结构规律。

DeepWalk.png
可以看出,DeepWalk把高纬度的图表示为2纬的向量,这些低纬的向量表示蕴含着节点的潜在关系。

1 问题定义

对社交网络的节点进行分类(1类或多类)。进一步,定义G=(V,E),V是网络节点的集合,E是节点之间的边的集合。E \subseteq (V \times V)。给定一个有标签的社交网络G_L=(V,E,X,Y),它有属性X \in \Bbb R^{|V| \times S},其中S是每个属性的特征空间大小,Y \in \Bbb R^{|V| \times \cal Y}\cal Y是标签的集合。
在传统的机器学习分类任务中,我们需要学习一个H假设,使它可以把X映射到Y集合中。现在,我们可以利用嵌入到图G结构中的样本关系获得有意义的信息,进而获得更好的表现。


在文献中,这被称为关系分类。传统的方法把这个问题看作无向马尔可夫网络的推理问题,并且在给定网络结构的情况下,运用迭代近似推理算法取计算标签的后验分布。
我们提出一种不同的方法去网络的拓扑信息。不是把标签空间作为属性空间的一部分,我们提出一种无监督的方法可以得到具有捕捉网络结构能力的特征,并且它们与标签的分布是相关独立的。
我们的目标是学习X_E \in \Bbb R^{|V| \times d},这里的d是潜在维数的一个小小的子集。这些低纬表示是分布式的,意味着每种社交现象被这些维度的子集所表示,并且每一维对空间表示的社交观念的子集都有贡献。?


使用这些结构化的属性,我们就可以扩充特征空间,帮助进行分类决策。这些特征是通用的,可以用作任何分类算法(包括迭代算法)。因此,这些特征的最大好处就是易与简单的机器学习算法整合起来。

2 学习社交表示

我们学习的社交表示方法有以下特点:

  • 可扩展性(Adaptability):新加入的社交关系不应该需要重复学习过程。
  • 社区感知(Community aware):潜在维度的距离应该表示网络所对应成员的社交相似度。
  • 低纬(Low dimensional):当标记数据很少时,低维模型通常会表现很好,还会加速收敛与推理。
  • 连续(Continuous):我们需要潜在维度可以把样本映射到连续空间。除了可以细致地显示社区成员,连续的表示在社区之间有更加平滑的决策边界,这会有更鲁棒的分类效果。
    我们通过连续的随机游走获得节点的表示,同时使用语言建模的最优化方法以满足以上需求。接下来我们回顾以下随机游走和语言建模方法,然后解释它们怎么结合以满足我们的需求。

2.1 随机游走(Random Walks)

我们定义随机游走的跟节点v_i\cal W_{vi}。它是一个由\cal W^1_{vi},\cal W^2_{vi},...,\cal W^k_{vi}组成的随机过程,\cal W^{k+1}_{vi}是被随机选出的节点v_k的邻居。随机游走作为一种相似度度量的方式应用于内容推荐和社区发现。
正是这种与本地结构的连接促使我们使用短随机游动流作为从网络中提取信息的基本工具。使用随机游走不仅可以获取社区信息,还有两个理想特性。第一,局部探索易于并行化。几个随机游走可以同时(在不同的线程,进程或者机器)挖掘同一图的不同部分。第二,依靠短随机游走获得的信息可以适应图中的微小变化,而不需要全局的重新计算。我们可以及时地在变化的区域的重新进行随机游走迭代更新学习模型,这对比更新整个图来说是次线性的。?

2.2 连接:幂律

在选择在线随机游走作为我们主要捕捉图结构的方法之后,我们现在需要一个合适的方法去捕捉这些信息。如果一个连接图的度分布服从幂律定律,我们观测得到节点在短随机游走出现的频率也会服从幂律分布

幂律分布
我们工作的核心贡献是提出,过去用于自然语言建模的方法(符号频率服从幂律分布)也可以用于网络的社区结构建模。接下来将介绍自然语言建模,然后将其转化为学习节点表示,并使之满足我们的标准。

2.3 语言建模

语言建模的目标是估计一串特殊的词出现在全集的可能性。正式地说,给定一串词W^n_1=(w_0,w_1,...,w_n)其中w_i \in \cal V(\cal V是词汇表),我们要在所有训练的集合中求出Pr(w_n|w_0,w_1,...,w_{n-1})的最大值。
最近关于表示学习的工作聚焦在使用概率神经网络去建立通用的词汇表示,这超出了语言建模的原始目标的范围。
在这项工作中,我们通过短随机游走探索图,这展示了一种语言建模的一般化。这种直接的类比是在给定随机游走之前访问过的节点情况下,估计下一次要访问节点v_i的可能性。

Pr(v_i|(v_1,v_2,...,v_{i-1}))
我们的目标是学习一种潜在的表示,而不是一个节点再现的概率分布,因此我们引入一个映射函数\Phi:v \in V \to \Bbb R^{|V| \times d}。这个映射函数\Phi表示途中每个节点V之间潜在的社交表示。然后这个问题就编程估计以下可能性:

Pr(v_i|(\Phi(v_1),\Phi(v_2),...,\Phi(v_{i-1})))
然而,随着游走的距离增大,计算这个目标函数变得不是那么容易。
一个在语言建模的最新的relaxation考虑到了这个预测问题。首先,不是用上下文去预测缺失的单词,而是用单词去预测它的上下文。其次,这里的上下文同时包括该单词的右边的词汇和左边的词汇。最后,它去除了这个问题的顺序约束。取而代之的是,这个模型需要最大化上下文出现的各个单词的概率,而无需知道其偏离给定单词的知识。
在节点表示建模方面,这产生了如下优化问题:

\underset{\Phi}{minimize}-logPr(\lbrace v_{i-w},...,v_{i-1},v_{i+1},...,v_{i+w} \rbrace|\Phi(v_i))
我们发现这些relaxations在社交表示学习上尤其可取。首先,顺序独立假设很好地获取了随机游走所提供的“接近”。另外,这个relaxation可以在某个时间给出一个节点的情况下,通过构建更小的模型加速训练时间。
解决上面式子的优化问题构建了局部图结构的节点之间的共享相似度表示。具有相似邻居的节点会获得相似的表示,可以在机器学习任务上一般化。
通过结合缩短的随机游走和神经语言模型我们建立一种可以满足我们所有期望特性的方法。这种方法生成了社交网络的低维表示,并且在向量空间连续。它表示了社区成员的潜在形式,并且由于这种方法输出有用的中间表示,它可以适应变化的网络拓扑。

3 方法

3.1 概况

在其他所有语言建模算法中,需要的输入仅为一个全集和一个词汇表\cal V。DeepWalk把随机游走作为自己的全集,图的节点作为自己的词汇表(\cal V=V)。然而,最好在训练之前知道随机游走的V和节点的频率分布,不过这不是必须要的。

3.2 算法:DeepWalk

算法主要包括两个主要成分;第一是一个随机游走的生成器,第二是更新程序。
随机游走生成器把图G作为输入,随机挑选一个节点v_i作为随机游走\cal W_{vi}的根节点。每一步需要从上一个节点的邻居节点中随机挑选一个作为当前节点,直到达到最大长度t。在实验中我们把这个长度固定,但是并没有规定t必须取某个相同的值。这些游走可能重新回到起点,但是我们之前的结果并没有显示重新开始的任何优势。在实践过程中,我们在每个节点进行了\gamma次长度为t的随机游走。

DeepWalk算法
我们根据目标函数,使用SkipGram算法进行表示的更新。

3.2.1 SkipGram

SkipGram是一种语言模型,它使出现在窗口w中的单词在句子中的共现概率最大化。

SkipGram算法
该算法迭代出现在窗口
W
内的随机游走中的所有可能的搭配。对于每一个,我们映射每个节点
v_j
到它当前的表示向量:
\Phi(v_j) \in \Bbb R^d
如下图,
表示映射
有了节点
v_j
的向量表示,我们想要最大化游走出现邻居的概率。我们可以选择合适的分类器学习这种后验分布。比如,用逻辑回归对前一个问题进行建模将产生大量等于
|V|
的标签,数量接近百万甚至十亿。这些模型需要大量的计算资源。为了加速训练时间,分层Softmax可以用来近似这种概率分布。

3.2.2 分层SoftMax

给定u_k \in V,计算Pr(u_k|\Phi(v_j))不是可取的。计算分区函数(归一化因子)是代价高的。如果我们把节点挡在二叉树的叶子节点上,预测问题就可以转化为最大化特有路径的可能性问题。

分层Softmax

3.2.3 最优化

这个模型的参数集合是\lbrace \Phi,T \rbrace,其大小都为O(d|V|)。随机梯度下降被用来优化这些参数。微分用后向传播算经进行计算。学习率\alpha初始化为2.5%,然后随着目前发现的节点的增加线性减小。


参考文献:
[1]Perozzi B, Alrfou R, Skiena S. DeepWalk: online learning of social representations[J]. 2014:701-710.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,456评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,370评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,337评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,583评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,596评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,572评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,936评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,595评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,850评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,601评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,685评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,371评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,951评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,934评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,167评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,636评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,411评论 2 342

推荐阅读更多精彩内容

  • 0 摘要 网络是表达物体和物体间联系的一种重要形式,针对网络的分析研究的一个关键问题就是研究如何合理地表示网络中的...
    shijiatongxue阅读 6,446评论 3 10
  • 大家好,我叫侯子浩,我最喜欢的乐器就是吉他。吉他要考十级,我今年才考到六级,我在西安音乐学院考级,我一进到...
    蝴蝶画_6074阅读 1,175评论 0 1
  • 天上的星星流泪,地上的玫瑰枯萎,冷风吹,冷风吹,只要有你陪…… 父亲,他是我的男神也是我的偶像。在我记事以来,父亲...
    森森12599阅读 326评论 1 3
  • 中考英语语法之句子的种类及经典例题分析 2016-11-17 中考英语朱老师 英语中句子种类虽然看似简单,但非常重...
    小绿植物阅读 1,227评论 0 0
  • 我现在是一名大学生,有一个问题一直萦绕在我脑子里:到底是读书好还是打工好呢?相信有这个疑惑的不仅仅我一个吧...
    河之彼岸阅读 79评论 0 0