概述
论文主要观点
本文将抽取网络中节点的特征转化成最优化一个“可能性”目标函数问题,这个“可能性”是该节点可以保存其邻居节点的信息。
成果
- node2vec,如上述,利用SGD优化,高效
- “随机选择邻居”算法,可让node2vec可适应不同的网络
方法模型
-
定义可能性,并且给予两个条件,构成要优化的目标函数;
条件独立性:
节点之间对称性:
最后目标函数:
- 既然目标函数描述的是此节点能保存相邻节点的可能性,那么最重要的就是对于相邻节点的选择算法了,在这里本文利用了一种“Random Walks”的方式,其中含有几个参数,该算法可以在BFS和DFS中随意变换以达到最好的效果,这部分没具体看,不做详细记录。
创新点
本文的“保存相邻节点可能性”来自于一篇自然语言处理论文,在自然语言中,源文件是线性的,只要设置一个“滑动窗口”即可方便实现。那么本文将该线性方法使用到非线性的图中,创新点就在于引入“Random Walks”的邻居节点选择方式。
总结
本文的特征抽取方式类似于聚类分析的非监督方法,本质上都是利用相邻节点之间的联系。文中提到了网络中的节点一般有两种相似度量:1.内容相似性,2.结构相似性。其中内容相似性主要是相邻节点之间的相似性,而结构上相似的的点并不一定是相邻的,可能隔得很远,这也是文中为何要把BFS和DFS相结合来选择邻居节点的原因。
我的想法
- 这是一篇很有启发作用的好文章。总的来说,你可以以两个方式来看一个网络中的节点,第一,“看本身”,只看这个节点,用其本身的表象来抽取特征,对应于监督方式;第二,“看联系”,看其和其周围的节点,其周围节点一定具有一定的相似度,对应于无监督方式。
- 那么对于任何问题,我们如果想去看联系,首先要根据某种规则让他们存在联系,这种存在联系的过程必须是自然的,才能很好的体现出“无人为干预”的自主聚类形式。