Flannel中vxlan backend的原理和实现

这次分享介绍Flannel中的vxlan backend，包含两方面内容：

深入理解内核中的VXLAN原理：使用iproute2和bridge等原生工具来搭建一个基于VXLAN的Overlay网络。

理解Flannel使用vxlan backend时的工作原理：有了前面对内核VXLAN原理的理解，通过分析Flannel部分源码来从根本上掌握其vxlan backend的原理。

一、VXLAN的原理

Virtual eXtensible Local Area Network（VXLAN）是一个在已有的3层物理网络上构建2层逻辑网络的协议。

在2012年底的v3.7.0之后，Linux Kernel加入了VXLAN协议支持，作者：Stephen Hemminger，所以如果要使用Linux Kernel中的VXLAN支持，最低内核版本3.7+（推荐3.9+）。

Stephen Hemminger同时也实现了iproute2、bridge等工具，用以管理Linux中复杂的网络配置，目前在绝大多数Linux发行版中都是默认支持的。

VXLAN本质上是一种tunnel（隧道）协议，用来基于3层网络实现虚拟的2层网络。泛泛地说，tunnel协议有点像今天电话会议，通过可视电话连接不同的会议室让每个人能够直接交谈，就好像坐在一个会议室里一样。很多tunnel协议，如GRE也有类似VXLAN中VNI的用法。

tunnel协议的另外一个重要的特性就是软件扩展性，是软件定义网络（Software-defined Network，SDN）的基石之一。

Flannel中有两个基于tunnel协议的backend：UDP（默认实现）和VXLAN，本质上都是tunnel协议，区别仅仅在于协议本身和实现方式。

这里顺便提一句：tunnel协议在比较老的内核中已经有支持，我印象中v2.2+就可以使用tunnel来创建虚拟网络了，因此UDP backend适合在没有vxlan支持的linux版本中使用，但性能会相比vxlan backend差一些。

以上是一些背景介绍，下面开始介绍VXLAN的内核支持

图1. VXLAN可以在分布多个网段的主机间构建2层虚拟网络

图2. VXLAN基本原理：套路还是tunnel那一套，区别仅仅在于tunnel协议本身的实现

为了说明图1和图2中谈到的VXLAN原理，这里在两台不同网段的VPS上手动搭建一个Overlay Network，并在两个节点上分别运行了Docker Container，当我们看到容器之间使用虚拟网络的IP完成直接通信时，实验就成功了。

图3 手动搭建vxlan虚拟网络的网络拓扑

图3中提到一个VTEP的概念，全称VXLAN Tunnel Endpoint，本质上就是前面提到的tunnel中的endpoint

现在正式开始手动搭建图 3中的虚拟网络

第一步、创建docker bridge

默认的docker bridge地址范围是172.17.0.1/24（比较老的版本是172.17.42.1/24），而本实验中两个节点node1和node2的子网要求分别为: 192.1.78.1/24，192.1.87.1/24 。

修改docker daemon启动参数，增加以下参数后重启docker daemon：

node1: --bip=192.1.78.1/24

node2: --bip=192.1.87.1/24

这时node1和node2的容器之间还不能直接通信， node1也不能跨主机和node2上的容器直接通信，反之node2也无法直接和node1上的容器通信.。

第二步、创建VTEPs

在node1上执行以下命令：

PREFIX=vxlan

IP=$external-ip-of-node-1

DESTIP=$external-ip-of-node-2

PORT=8579

VNI=1

SUBNETID=78

SUBNET=192.$VNI.0.0/16

VXSUBNET=192.$VNI.$SUBNETID.0/32

DEVNAME=$PREFIX.$VNI

ip link delete $DEVNAME

ip link add $DEVNAME type vxlan id $VNI dev eth0 local $IP dstport $PORT nolearning

echo '3' > /proc/sys/net/ipv4/neigh/$DEVNAME/app_solicit

ip address add $VXSUBNET dev $DEVNAME

ip link set $DEVNAME up

ip route delete $SUBNET dev $DEVNAME scope global

ip route add $SUBNET dev $DEVNAME scope global

node2上执行以下命令：

PREFIX=vxlan

IP=$external-ip-of-node-2

DESTIP=$external-ip-of-node-1

VNI=1

SUBNETID=87

PORT=8579

SUBNET=192.$VNI.0.0/16

VXSUBNET=192.$VNI.$SUBNETID.0/32

DEVNAME=$PREFIX.$VNI

ip link delete $DEVNAME

ip link add $DEVNAME type vxlan id $VNI dev eth0 local $IP dstport $PORT nolearning

echo '3' > /proc/sys/net/ipv4/neigh/$DEVNAME/app_solicit

ip -d link show

ip addr add $VXSUBNET dev $DEVNAME

ip link set $DEVNAME up

ip route delete $SUBNET dev $DEVNAME scope global

ip route add $SUBNET dev $DEVNAME scope global

第三步、为VTEP配置forward table

# node1

$ bridge fdb add $mac-of-vtep-on-node-2 dev $DEVNAME dst $DESTIP

# node2

$ bridge fdb add $mac-of-vtep-on-node-1 dev $DEVNAME dst $DESTIP

第四步、配置Neighbors，IPv4中为ARP Table

# node1

$ ip neighbor add $ip-on-node-2 lladdr $mac-of-vtep-on-node-2 dev vxlan.1

# node2

$ ip neighbor add $ip-on-node-1 lladdr $mac-of-vtep-on-node-1 dev vxlan.1

注意：ARP表一般不会手动更新，在VXLAN的实现中由对应的Network Agent监听L3 MISS来动态更新；这里手动添加ARP entry仅仅是为了测试；另外，如果跨主机访问多个IP，每个跨主机的IP就都需要配置对应的ARP entry。

以上操作都需要root权限，完成后整个Overlay Network就搭建成功了，下面通过测试两种连通性来总结本实验：

node1容器与node2上的容器直接通信（容器与跨主机容器间直接通信）

node1与node2上容器直接通信；node2与node1上容器直接通信（主机和跨主机容器之间通信）

先看容器与跨主机容器间直接通信的测试。

现在node1和node2上分别起一个busybox：

node1$ docker run -it --rm busybox sh

node1$ ip a

1: lo: mtu 65536 qdisc noqueue qlen 1

link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00

inet 127.0.0.1/8 scope host lo