从CNN到GCN的联系与区别——GCN从入门到精(fang)通(qi)
1 什么是离散卷积?CNN中卷积发挥什么作用?
了解GCN(图卷积神经网络)之前,必须对离散卷积(具体说就是CNN中的卷积)有个清楚的认识。
如何通俗易懂地解释卷积?,离散卷积本质就是一种加权求和。
如图1所示,CNN中的卷积本质上就是利用一个共享参数的卷积核,通过计算中心像素点以及相邻像素点的加权求和构成feature map实现空间特征的提取,其中权重就是卷积核的值。
那么卷积核的值如何确定呢?实际上卷积核值的确定过程就是模型训练的过程:首先随机初始化卷积核的值,然后根据反向传播梯度下降不断优化(即不断更新卷积核的值)直到模型收敛,此时卷积核的值被确定。
卷积核的参数通过优化求出才能实现特征提取的作用,GCN的理论很大一部分工作就是为了引入可以优化的卷积参数。
注:这里的卷积是指深度学习(CNN)中的卷积,与数学中定义的卷积运算严格意义上是有区别的。可以参考该内容卷积神经网络中的卷积与数学中卷积的区别
2 GCN中的Graph指什么?为什么要研究GCN?
CNN在计算机视觉中具有广泛应用,对图片具有强大的特征提取能力。但需要注意的是:CNN处理的图像或者视频数据中的像素点(pixel)是排列很整齐的矩阵(如图2所示,也就是很多论文中提到的Euclidean Structure)。
与之相对应,科学研究中还有很多 Non Euclidean Structure的数据,如图3所示,社交网络、信息网络中有很多类似的结构。
实际上,这样的网络结构(Non Euclidean Structure)就是图论中抽象意义上的拓扑图。
所以,Graph Convolutional Network中的Graph是指数学(图论)中的用顶点和边建立相应关系的拓扑图。
那么为什么要研究GCN?原因有三:
- CNN无法处理Non Euclidean Structure的数据,学术上的表达是传统的离散卷积(如问题1中所述)在Non Euclidean Structure的数据上无法保持平移不变形。通俗理解就是在拓扑图中每个顶点的相邻顶点数目都可能不同,那么当然无法用一个同样尺寸的卷积核来进行卷积运算(图卷积结构的不规则性导致了这一点)。
- 但又希望在这样的数据结构(拓扑图)上有效地提取空间特征来进行机器学习,所以GCN成为了研究的重点。
- 读到这里大家可能会想,自己的研究问题中没有拓扑结构的网络,那是不是根本就不会用到GCN呢?其实不然,广义上来讲任何数据在赋范空间内都可以建立拓扑关联,谱聚类就是应用了这样的思想(谱聚类(spectral clustering)原理总结)。所以说拓扑连接是一种广义的数据结构,GCN有很大的应用空间。
综上所述,GCN是要为除CV、NLP之外的任务提供一种处理、研究的模型。
3 提取拓扑图空间特征的两种方式
GCN的本质目的是来提取不规则的拓扑图的空间特征,那么实现这个目标只有graph convolution这一种途径吗?当然不是,vertex domain(spatial domain)和spectral domain实现该目标是两种最主流的方式。
(1)vertex domain(spatial domain)是非常直观的一种方式。顾名思义:提取拓扑图上的空间特征,那么就把每个顶点相邻的neighbors找出来。这里面蕴含的科学问题有二:
a、按照什么条件去找中心vertex的neighbors,也就是如何确定receptive field?
b、确定receptive field,按照什么方式处理包含不同数目neighbors的特征?
根据a,b两个问题设计算法,就可以实现目标了。推荐阅读这篇文章Learning Convolutional Neural Networks for Graphs
图4是其中一张图片,可以看出大致的思路)。
这种方法主要的缺点如下:
c、每个顶点提取出来的neighbors不同,使得计算处理必须针对每个顶点
d、提取特征的效果可能没有卷积好
(2)spectral domain就是GCN的理论基础了。这种思路就是希望借助图谱的理论来实现拓扑图上的卷积操作。从整个研究的时间进程来看:首先研究GSP(graph signal processing)的学者定义了graph上的Fourier Transformation, 进而定义了graph上的convolution,最后与深度学习结合提出了Graph Convolutional Network。
认真读到这里,脑海中应该会浮现出一系列问题:
Q1 什么是Spectral graph theory?(解释待定)
Spectral graph theory请参考,简单来说就是借助于图的拉普拉斯矩阵的特征值和特征向量来研究图的性质。
Q2 GCN为什么要利用Spectral graph theory?
这应该是看论文过程中读不懂的核心问题了,要理解这个问题需要大量的数学定义及推导,没有一定的数学功底难以驾驭(我也才疏学浅,很难回答好这个问题)。
所以,先绕过这个问题,来看Spectral graph实现了什么,再进行探究为什么?
4 什么是拉普拉斯矩阵?为什么GCN要用拉普拉斯矩阵?
Graph Fourier Transformation及Graph Convolution 的定义都用到图的拉普拉斯矩阵,那么首先来介绍一下拉普拉斯矩阵。
对于图, 其Laplacian 矩阵的定义为, 其中是Laplacian矩阵,是顶点的度矩阵(对角矩阵),对角线上元素依次为各个顶点的度,是图的邻接矩阵。看图5的示例,就能很快知道Laplacian 矩阵的计算方法。
这里要说明的是:常用的拉普拉斯矩阵实际有三种:
- 定义的Laplacian矩阵更专业的名称叫Combinatorial Laplacian
- ,定义的叫Symmetric normalized Laplacian, 很多GCN的论文中应用的是这种拉普拉斯矩阵
-
定义的叫Random walk normalized Laplacian,有读者的留言说看到了Graph Convolution与Diffusion相似之处,当然从Random walk normalized Laplacian就能看出了两者确有相似之处(其实两者只差一个相似矩阵的变换, 可以参考Diffusion-Convolutional Neural Networks
以及下图)
不需要相关内容的读者可以略过此部分
其实维基本科对Laplacian matrix的定义上写得很清楚,国内的一些介绍中只有第一种定义。这让我在最初看文献的过程中感到一些的困惑,特意写下来,帮助大家避免再遇到类似的问题。
为什么GCN要用拉普拉斯矩阵?
拉普拉斯矩阵矩阵有很多良好的性质,这里写三点我感触到的和GCN有关之处
- 拉普拉斯矩阵是对称矩阵,可以进行特征分解(谱分解),这就和GCN的spectral domain对应上了
- 拉普拉斯矩阵只在中心顶点和一阶相连(就是直接相连)的顶点上(1-hop neighbor)有非0元素,其余之处均为0
- 通过拉普拉斯算子与拉普拉斯矩阵进行类比(详见第6节)
5 拉普拉斯矩阵的谱分解(特征分解)
GCN的核心基于拉普拉斯矩阵的谱分解,文献中对于这部分内容没有讲解太多,初学者可能会遇到不少误区,所以先了解一下特征分解。
矩阵的谱分解,特征分解,对角化都是同一个概念(特征分解_百度百科)。
不是所有的矩阵都可以特征分解,其充要条件为n阶方阵存在n个线性无关的特征向量
但是拉普拉斯矩阵都是半正定对称矩阵(半正定矩阵本身就是对称矩阵,半正定矩阵_百度百科
, 此处这样写为了和下面的性质对应,避免混淆),有如下三个性质:
- 对称矩阵一定有n个线性无关的特征向量
- 半正定矩阵的特征值一定非负
- 对称矩阵的特征向量相互正交,即所有特征向量构成的矩阵为正交矩阵
由上可知,拉普拉斯矩阵一定可以谱分解,且分解后有特殊形式。
对于拉普拉斯矩阵其谱分解为:
其中,是单位特征向量组成的矩阵,是列向量。是n个特征值构成的对角矩阵。
由于是正交矩阵,即
因为 (这是定义)
所以
进而这里的特征分解又可以写成:
6 如何从传统的傅立叶变换、卷积 类比 到Graph上的傅立叶变换及卷积?
把传统的傅立叶变换以及卷积迁移到Graph上来,核心就是把拉普拉斯算子的特征函数变为Graph对应的拉普拉斯矩阵的特征向量。
(1)推广傅里叶变换
参考论文The Emerging Field of Signal Processing on Graphs
(a) Graph上的傅里叶变换
传统的傅立叶变换定义为
是信号 与基函数的积分,那么为什么要找作为基函数呢?从数学上看,是拉普拉斯算子的特征函数(满足特征方程), 就和特征值有关。
广义的特征方程定义为
其中,(一个矩阵)是一种变换(对向量变换),是特征向量或者特征函数(无穷维的向量),是特征值。
满足:
当然就是变换的特征函数,和特征值密切相关。
那么,可以联想了,处理Graph问题的时候,用到拉普拉斯矩阵(拉普拉斯矩阵就是拉普拉斯算子,想了解更多可以参考Discrete Laplace operator),自然就去找拉普拉斯矩阵的特征向量了。
是拉普拉斯矩阵,是其特征向量,自然满足下式
离散积分就是一种内积形式,仿照上述内容定义Graph的傅立叶变换
是Graph上的维向量,与Graph的顶点一一对应,表示第个特征向量的第个分量。那么特征值(频率)下的的Graph傅立叶变换就是与对应的特征向量进行内积运算。
注:上述的内积运算是在复数空间中定义的,所以采用了,也就是特征向量的共轭。
利用矩阵乘法将Graph上的傅立叶变换推广到矩阵形式:
即在Graph上傅立叶变换的矩阵形式为:
式中:的定义与第五节中的相同
(b)Graph上的傅立叶逆变换(频域()到时域())
类似地,传统的傅立叶逆变换是对频率求积分:
迁移到Graph上变为对特征值求和:
利用矩阵乘法将Graph上的傅立叶变换推广到矩阵形式:
即在Graph上傅立叶逆变换的矩阵形式为:
式中:的定义与第五节中的相同
(2)推广卷积
在上面的基础上,利用卷积定理类比来将卷积运算,推广到Graph上。
由卷积定理可知,两个函数的卷积等于各个函数傅立叶变换的乘积的逆变换,即
将上述过程推广到Graph:
- 的傅立叶变换为
- 卷积核的傅立叶变换写成对角矩阵形式
则有
存疑:可能是满足交换律?不确定
进一步得到
注:通过乘以对等式右边做逆变换。
很多论文中的Graph卷积公式为:
式(2)中, 表示Hadamard product(哈达马积),对于两个维度相同的向量、矩阵、张量进行对应位置的逐元素乘积运算。
式(1)和式(2)是完全相同的。
7 为什么拉普拉斯矩阵的特征向量可以作为傅里叶变换的基?特征值表示频率?
(1)为什么拉普拉斯矩阵的特征向量可以作为傅里叶变换的基?
傅里叶变换一个本质理解就是:把任意一个函数表示成了若干个正交函数(由sin,cos 构成)的线性组合。
通过第六节中(b)式也能看出,**graph傅里叶变换也把graph上定义的任意向量,表示成了拉普拉斯矩阵特征向量的线性组合,即: **
那么:为什么graph上任意的向量 都可以表示成这样的线性组合?
原因在于 是graph上维空间中的个线性无关的正交向量,由线性代数的知识可以知道:维空间中个线性无关的向量可以构成空间的一组基,而且拉普拉斯矩阵的特征向量还是一组正交基。
(2)怎么理解拉普拉斯矩阵的特征值表示频率?
在graph空间上无法可视化展示“频率”这个概念,那么从特征方程上来抽象理解。
将拉普拉斯矩阵的个非负实际特征值,从小到大排列为,而且最小的特征值,因为维的全为1向量对应的特征值为0.(这一句不太懂)。
从特征方程的数学理解来看:
在有Graph确定的维空间中,越小的特征值表明:拉普拉斯矩阵其对应的基上的分量、“信息”越少,那么当然就是可以忽略的低频部分了。
其实图像压缩就是这个原理,把像素矩阵特征分解后,把小的特征值(低频部分)全部变成0,PCA降维也是同样的,把协方差矩阵特征分解后,按从大到小取出前K个特征值对应的特征向量作为新的“坐标轴”。
Graph Convolution的理论告一段落了,下面开始Graph Convolution Network
8 Deep Learning中的Graph Convolution
Deep learning 中的Graph Convolution直接看上去会和第6节推导出的图卷积公式有很大的不同,但是万变不离其宗,(1)式是推导的本源。
第1节的内容已经解释得很清楚:Deep learning 中的Convolution 就是要设计含有trainable共享参数的kernel,从(1)式看很直观:graph convolution中的卷积参数就是
- 第一代GCN
Spectral Networks and Locally Connected Networks on Graphs中简单粗暴地把变成了卷积核 ,也就是:
(为避免混淆,本文中称是卷积核,的运算结果为卷积运算矩阵)
式(3)就是标准的第一代GCN中的layer了, 其中是激活函数,,就跟三层神经网络中的weight一样是任意的参数,通过初始化赋值然后利用误差反向传播进行调整,就是graph上对应于每个顶点的feature vector(由数据集提取特征构成的向量)。
第一代的参数方法存在着一些弊端,主要在于:
(1) 每一次前向传播,都要计算 三者的矩阵乘积,特别是对于大规模的graph,计算的代价较高,也就是论文中,的计算复杂度
(2) 卷积核不具有spatial localization(这个在第9节中进一步阐述)
(3) 卷积核需要个参数
由于以上的缺点第二代的卷积核设计应运而生。
- 第二代GCN
Convolutional Neural Networks on Graphs with Fast Localized Spectral Filtering,把巧妙设计成了,也就是:
上面的公式仿佛还什么都看不出来,下面利用矩阵乘法进行变换,来一探究竟。
进而可以导出:
小说明:
上述等式成立的原因是,其中
(4)式就变成了:
其中是任意的参数,通过初始化赋值然后利用误差反向传播进行调整。
式(5)所设计的卷积核其有点在于:
(1)卷积核只有K个参数,一般K远小于n,参数的复杂度被大大降低了。
(2)矩阵变换后,神奇地发现不需要做特征分解了,直接用拉普拉斯矩阵L进行变换。然而由于要计算,计算复杂度还是
(3)卷积核具有很好的spatial localization,特别地,K就是卷积核的receptive field,也就是说每次卷积会将中心顶点K-hop neighbor上的feature进行加权求和,权系数就是
更直观地看,就是对每个顶点上一阶neighbor的feature进行加权求和,如下图所示:
同理,K=2的情形如下图所示:
注:上图只是以一个顶点作为实例,GCN每一次卷积对所有的顶点都完成了图示的操作。
- 利用Chebyshev多项式递归计算卷积核
在第二代GCN中,是的矩阵,所以的计算复杂度还是,Wavelets on graphs via spectral graph theory提出了利用Chebyshev多项式拟合卷积核的方法,来降低计算复杂度。卷积核可以利用截断(truncated)的shifted Chebyshev多项式来逼近。(这里本质上应该寻找Minimax(极小值) Polynomial Approximation, 但是作者说直接利用Chebyshev Polynomial的效果也很好)
其中是Chebyshev多项式的系数,是取的Chebyshev多项式,进行这个shift变换的原因是Chebyshev多项式的输入要在[-1, 1]之间。
由Chebyshev多项式的性质,可以得到如下的递推公式
其中,的定义同上,是维的由每个顶点的特征构成的向量(当然,也可以是的特征矩阵,这时每个顶点都有个特征,但是远小于。
这个时候不难发现:式(6)的运算不再有矩阵乘积了,只需要计算矩阵与向量的乘积即可。计算一次 的复杂度是,是图中边的集合,则整个运算的复杂度是。当graph是稀疏图的时候,计算加速尤为明显,这个时候复杂度远低于
上面的讲述是GCN最基础的思路,很多论文中的GCN结构是在上述思路的基础上进行了一些简单数学变换。理解了上述内容,就可以做到“万变不离其宗”。
9 在GCN中的Local Connectivity和Parameter Sharing
CNN中有两大核心思想:网络局部连接,卷积核参数共享。
那么我们不禁会联想:这两点在GCN中是怎样的呢?以下图的graph结构为例来探究一下
- GCN中的Local Connectivity
(a)如果利用第一代GCN,根据式(3)卷积运算矩阵()即为
这个时候,可以发现这个卷积核没有local的性质,因为该卷积核得到的运算矩阵在所有位置上都有非0元素。以第一个顶点为例,如果考虑一阶local关系的话,那么卷积核中第一行应该只有[1,1],[1,2],[1,5]这三个位置的元素非0。换句话说,这是一个global全连接的卷积核。
(b)如果是第二代GCN,根据式(5)当 K=1卷积运算矩阵即为
当K=2,卷积运算矩阵即为
看一下图的邻接结构,卷积运算矩阵的非0元素都在localize的位置上。
- GCN中的Parameter Sharing
Parameter Sharing
参考文献
如何理解 Graph Convolutional Network(GCN)?
快速了解GCN(图卷积神经网络)综述综述综述