复杂网络作业记录

目的：以Wiki vote投票网络等真实合作网络数据集、随机网络和小世界网络为例，学习网络的基本分析方法。

ok虽然咱理论不太懂，但是用API还是会的。先看看prepare

实验准备.可选SNAP、Networkx两种分析工具中任一种。如果使用python，请先安装。

（1）安装SNAP网络分析工具。推荐使用Snap.py for Python，也可以使用SNAP for C++。软件下载地址分别为：

Snap download(available from http://snap.stanford.edu/snap/download.html)

（2）Networkx网络分析工具，Python。基本使用方法可参见Networkx的在线手册：https://networkx.github.io/documentation/stable/index.html

这里建议，都不会的话就直接用Networkx吧。我先用的SNAP，最后才发现后续的gml格式数据集不能读取，还得查了Networkx用法后写了gml转txt的代码。

环境安装都比较简单，pip能解决一切问题。

在这里先把我用到的参考链接都一起附上：

（SNAP 常用方法）https://www.freesion.com/article/6914462644/

（CS224W 图神经网络学习笔记（四）SNAP.PY: SNAP FOR PYTHON）https://www.freesion.com/article/7647792791/

（CS224W作业1）https://www.freesion.com/article/8186637191/（这玩意基本就是我第三题答案）

（SNAP学习笔记）https://blog.csdn.net/juyuyh/article/details/103947329?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-7.channel_param&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-7.channel_param

（十分钟学会graphviz画图）https://www.jianshu.com/p/6d9bbbbf38b1

！！主要参考资料：（snap使用指南.pdf）https://github.com/Mryangkaitong/snap.py/blob/master/snap%E4%BD%BF%E7%94%A8%E6%8C%87%E5%8D%97.pdf

（官方API）http://snap.stanford.edu/snappy/doc/reference/index-ref.html

（gml转txt）https://blog.csdn.net/qq_36940806/article/details/103787750

1. Wikipedia vote网络的基本分析：数据集下载地址：http://snap.stanford.edu/data/wiki-Vote.html 使用分析工具加载Wikipedia voting 网络。该网络为有向图。节点集合V，边集E，边(a, b)表示用户a投票给用户b。计算并打印如下统计结果：

emmm查看了一下API发现，只有按度查询节点数量的功能。那就用最基本的思想：一个有/无向图，节点出/入度数<=节点总数（没自环就严格小于了）。接着只要全部遍历就可以了。节点总数这种信息在第一次printInfo就能看到。那就简单了

把info和print整理一下，就是结果了

2. StackOverow 网络分析下载StackOverow network stackoverflow-Java.txt.gz: 下载地址：http://snap.stanford.edu/class/cs224w-data/hw0/stackoverflow-Java.txt.gz. 数据集。该网络是有向网络，边 (a, b) 表示网络中a采纳了b给出的java相关问题的答案。给出下面的分析结果。

这道题也没有难度，也就是调API。最后也只需要按value逆序排序切片取一下前三的id就可以了

3. 随机图、小世界网络和真实网络的度分布

（1）ER图：生成n=5242个节点以及m=14484条边的随机图。可以自己写代码，也可以使用SNAP或Networkx函数。

（2）SW随机网络，从n=5242个节点的环形网络开始，加上节点连成圆圈，每个节点连接其直接的两个邻居（例，节点399连接398和400），此时共有5242条边。接下来，连接每个节点到其邻居的邻居（例，节点399连接397和401），这又会多出5242条边。最后随机选择未连接的4000对节点，在他们之间增加连边。此时一共有5242*2+4000=14484条边。可以自己写代码，可以调用SNAP或Networkx函数。

（3）科学家合作网络：下载无向网络http://snap.stanford.edu/data/ca-GrQc.txt.gz. 该数据集是arXiv库中广义相对论和量子宇宙方面的论文作者之间的关系。两个作者如果有共同合作论文，则二者之间有边向量。有些边在数据集中可能出现两次，去掉重边和自环后，共有5242个节点和14484条边。（注意，当使用SNAP的LoadEdgeList函数时，重边会自动忽略，但需删除自环的边）。问题：在对数坐标系下，画出三个网络中节点的度分布。图中每个数据点(x,y)，其中x是出度的大小，是正整数，y是出度为x的节点的数量。（最好将x的范围限定在最大和最小出度之间。）对于对数坐标系，x和y轴使用10的幂次做单位。

首先，我发现我调用LoadEdgeList后直接print了edge数，和我deleteselfedge后print的edge数没有变化，我猜可能这个LoadEdgeList函数可能也自动去除自环了吧，不过我没有去验证，只是不禁想到了第一题printInfo里的self edge信息里也是0，算了就不想管了。

回到正题。ER图就是无脑找API。SW图就照着要求画了一遍两个5242条边。需要稍微思考一下的地方就是随机找4000对节点连边了。科学家网络load就直接满足条件了。

part1

part2

part3

一开始没看问题，以为要把图画出来，找了相关的api去画直观图

一张图就70M

这也太大了

然后我看了看要求，原来要的不是这种图。稍微查了一下，有用Hadoop画图的，有用matlab库(?)画的（开头的链接里）。我也不太会用python，这么多库的东西我可不想研究了，找对象帮我用MATLAB画了一下。当然我得把x,y坐标分别打出来成3份文档。

然后就是无脑print(list)以后在bash里管道导到txt咯

看到都密恐的数据

虽然我没按要求去做那个最好限定x的范围，不过反正不用我手画图，也就无妨了，毕竟简单省事。

第四题嘛

看到数学公式直接头大选择放弃，毕竟也没怎么学，就不浪费时间了~~（不差这6分）~~

5. 社区发现 Louvain算法仅考虑无向无权图。Louvain算法是比利时的Louvain大学的工作，其作者是Blondel等人。在网上很容易找到Louvain算法的代码实现，不仅可以在小图上，而且在大图上该算法依然运行得很快。该算法基于模块化度的优化，通过社区的合并直到找到较好的社区结构。问题：

（1）在网上找到Louvain算法的实现，任何版本和语言均可。注释代码的主要流程。

（2）下载Zachary's karate club（http://www-personal.umich.edu/~mejn/netdata/），并简单描述数据集。

（3）在数据集上运行该代码，得到划分结果，并对比该结果与实际情况是否相同。

（4）在SNAP网站上的数据集中选择Networks with ground-truth communities中的任何一个数据集，运行Louvain算法，并对比划分结果与实际ground-truth的差异（选做题，对比差异时可以使用模块化度、NMI、ARI等指标）。

首先当我搜这个算法名的时候看到这种，当时我就退缩了

我觉得直接找找算法代码用就好了，就不研究了

首先映入眼帘的就是一个python版本的：https://python-louvain.readthedocs.io/en/latest/

点开，下载，读readme一气呵成。

然后看到example的时候

先不说这干了些啥，一来这么大一个load

直接就引入作业研究的数据集了吗~~（这就是官方数据集吗）~~

本着也不能太水的想法，换了个c++版本的

（DirectedLouvain）https://github.com/nicolasdugue/DirectedLouvain

说实话由于看不懂题，我决定把example里面的代码用要求的数据集跑一遍去交差算了。

但是看到这个下载的是gml格式数据，这个要求是txt（src - des)格式，于是找了个gml转txt的代码（开头），还不能直接用，提示没有label标签。（于是找了其他dataset的gml数据来对比了一下，确实karate的这个就没有label属性和weight属性，比较简单）于是找了下官方Networkx的tutorial和API，改了个转换这个gml格式的脚本

剩下就是把代码按example挨个跑了一遍收工。