CS224W-图神经网络笔记2.1：Properties of Networks and Random Graph Models - 图的四大属性

本文总结之日CS224W Winter 2021只更新到了第四节，所以下文会参考2021年课程的PPT并结合2019年秋季课程进行总结以求内容完整
课程主页：CS224W: Machine Learning with Graphs
视频链接：【斯坦福】CS224W：图机器学习( 中英字幕 | 2019秋)

1 引言

初步了解一个人，我们通常会问其身高、年龄、体重等信息。那么，要了解一个图Graph我们需要关注哪些信息呢？这就是本节讨论的内容。

2 图的四大属性

通常我们会从下面四个方面去初步理解一个图：

度分布（Degree distribution） $P(k)$
路径长度（Path length） $h$
聚类系数（Clustering coefficient） $C$
连通分量（Connected components） $s$

下面依此来看

2.1 度分布（Degree distribution）

定义：统计每个节点的度，然后计算不同的度数在所有节点中出现的频率。从图上看起来更直观。

图片

2.2 路径长度（Path length）

需要了解三个概念：路径、距离、直径

1. 路径:是一串彼此相连的节点组成的链。如: $P_n = {i_0, i_1, i_2,...,i_n}$ , 注：一个条路径中的某点看可以出现多次！
1. 距离（Distance）：两点之间的最短路径shortest path，称为两点之间的距离。注：
1. 对于有向图，一条路径的边一定要从左到右
1. 若两点之间不直接或间接相连则距离为无穷大.
如下图中的 $X$ 和 $A$ 点之间距离

图片

直径:图的中任意两点之间距离的最大值，称为图的直径。

但直径并不是很好用，考虑到一个很扁的图和很圆的图可能具有形同的直径。说白了就是容易受极端值影响。通常采用平均距离。
- 计算时忽略不相连的两点间距离，因为无穷大。
- 直径也适用于刻画图的某个连通分量（connected components）的直径。
平均距离Average path length：所有两点之间距离加总，除以所有两点的组合数。

图片

2.3 聚类系数（Clustering coefficient）

定义：是用来描述一个图中的某节点与其相连节点之间聚集成团的程度的一个系数。它只定义在无向图上。计算方法如下：

图片

截屏2021-02-01 下午3.28.33

实际上就是算节点i与邻居构成实际组成的三角形数除上最大可能三角形个数。翻译成人话就是我的朋友之间相互认识情况。

平均聚类系数：所有节点的聚类系数取平均就得到。

2.4 连通分量（Connected components）

连通分量：图中的一个子图，子图中任意两点之间都存在路径，子图内节点和子图外的节点都没有路径。
- 任何连通图的连通分量只有一个，即是其自身。
- 非连通的无向图有多个连通分量。

如何找到连通分量？

通过广度搜索算法（BFS）：

随机选择一个节点作为起点，进行广度优先搜索；

将广度优先搜索经过的节点进行标记；

如果所有的节点都进行了标记，则该图是一个连通图；

如果存在未标记的节点，从未标记的节点中随机选择一个节点作为起点进行广度优先搜索；重复第2步和第4步，直至所有节点都标记完毕；最后得到的多个连通子图中对的极大连通子图就是该图的连通分量。

3 MSN Messager网络

老师通过MSN（类似QQ的聊天软件）上一个月的对话活动构建的网络，这本身是个Multigraph 包含180M的用户（节点），两类边：是否好友、是否聊过天（可多次）。

图片

通过简化，将用户之间有过聊天简化成无向图。共180M节点，1.3B边。这个MSN网络的4大属性如下：

图片

通过属性说明了什么呢？

度分布，均值14.4，说明平均每个人和14.4个人聊天
聚类系数，均值0.11，平均每个人聊天过的朋友中，只有11%的朋友会彼此聊天。
连通分量，最大联通分量覆盖99%的节点，强连通,绝大部分人都生活在一个大群体中。
路径长度，均值6.6，平均两个人之间通过7个人就能聊上天;最大值30，意味任意两个人能认识最多通过30个人就能实现。

4 下文预告

得到图的四个维度属性后，怎么评价这个网络呢？到底处在什么水平？

就好像评价看一个人是高还是矮，我们是拿自己或他人作为参照，得出结论。那么对于网络我们也需要一个参照，这就是下面要谈的随机网络模型

5 参考文章

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,772评论 6赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,458评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,610评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,640评论 1赞 276
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,657评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,590评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,962评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,631评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,870评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,611评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,704评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,386评论 4赞 319
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,969评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,944评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,179评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,742评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,440评论 2赞 342

CS224W-图神经网络 笔记2.1：Properties of Networks and Random Graph Models - 图的四大属性