CNI
CNI(Container Network Interface,容器网络接口)是 Google 和 CoreOS 主导制定的容器网络标准,它是在 RKT 网络提议的基础上发展起来的,综合考虑了灵活性、扩展性、IP 分配、多网卡等因素。
CNI 旨在为容器平台提供网络的标准化,不同的容器平台(e.g. Kubernetes、Mesos 和 RKT)能够通过相同的接口调用不同的网络组件。这个协议连接了两个组件:
容器管理系统
网络插件
具体的事情都是插件来实现的,包括:创建容器网络空间(network namespace)、把网络接口(interface)放到对应的网络空间、给网络接口分配 IP 等。
目前采用 CNI 提供的方案一般分为两种
隧道方案
路由方案
具体为:Flannel,Callico,Weave 和 macvlan 网络方案。从难易度上来讲,Callico 最简单,其次 Flannel,Weave 最复杂,从网络技术来看,Weave 和 Flannel 都是网络封装隧道技术,区别在于封装的位置在网络设备上还是主机上。
Flannel
Flannel 是 CoreOS 提出用于解决容器集群跨主机通讯的网络解决方案。Flannel 实质上是一种 Overlay 网络,也就是将 TCP 数据包装在另一种网络包里面进行路由转发和通信,目前已支持 UDP、VXLAN、AWS VPC、GCE 路由等数据转发方式,其中以 VXLAN 技术最为流行,很多数据中心在考虑引入容器时,也考虑将网络切换到 Flannel 的 VXLAN 网络中来。
Flannel 为每个主机分配一个 Subnet,容器从此 Subnet 中分配 IP,这些 IP 可在主机间路由,容器间无需 NAT 和端口映射就可以跨主机通讯。Flannel 让集群中不同节点主机创建容器时都具有全集群唯一虚拟 IP 地址,并连通主机节点网络。Flannel 可为集群中所有节点重新规划 IP 地址使用规则,从而使得不同节点上的容器能够获得 “同属一个内网” 且 “不重复的” 的 IP 地址,让不同节点上的容器能够直接通过内网 IP 通信,网络封装部分对容器是不可见的。源主机服务将原本数据内容 UDP 封装后根据自己的路由表投递给目的节点,数据到达以后被解包,然后直接进入目的节点虚拟网卡,然后直接达到目的主机容器虚拟网卡,实现网络通信目的。
Flannel 虽然对网络要求较高,要引入封装技术,转发效率也受到影响,但是却可以平滑过渡到 SDN 网络,VXLAN 技术可以和 SDN 很好地结合起来,值得整个网络实现自动化部署,智能化运维和管理,较适合于新建数据中心网络部署。
Callico
Callico 容器网络和其他虚拟网络最大的不同是:它没有采用 Overlay 网络做报文转发,提供了纯三层网络模型。三层通信模型表示每个容器都通过 IP 直接通信,要想路由工作能够正常,每个容器所在的主机节点必须有某种方法知道整个集群的路由信息,Callico 采用 BGP 路由协议,使得全网所有的 Node 和网络设备都记录到全网路由。
然而这种方式会产生很多的无效路由,对网络设备路由规格要求较大,整网不能有路由规格低的设备。另外,Callico 实现了从源容器经过源宿主机,经过数据中心路由,然后到达目的宿主机,最后分配到目的容器,整个过程中始终都是根据 BGP 协议进行路由转发,并没有进行封包,解包过程,这样转发效率就会快得多,这是 Callico 容器网络的技术优势。
Weave
Weave 实质上也是 Overlay 网络,Weave 可以把不同主机上容器互相连接的网络虚拟成一个类似于本地网络的网络,不同主机之间都使用自己的私有 IP 地址,当容器分布在多个不同的主机上时,通过 Weave 可以简化这些容器之间的通信。
Weave 网络中的容器使用标准的端口提供服务(e.g. MySQL 默认使用 3306),管理微服务是十分直接简单的。每个容器都可以通过域名来与另外的容器通信,也可以直接通信而无需使用 NAT,也不需要使用端口映射或者复杂的联接。
部署 Weave 容器网络最大的好处是无需修改你的应用代码。Weave 通过在容器集群的每个主机上启动虚拟路由器,将主机作为路由器,形成互联互通的网络拓扑,在此基础上,实现容器的跨主机通信。
要部署 Weave 需要确保主机 Linux 内核版本在 3.8 以上,Docker1.10 以上,主机间访问如果有防火墙,则防火墙必须彼此放行 TCP 6783 和 UDP 6783/6784 这些端口号,这些是 Weave 控制和数据端口,主机名不能相同,Weave 要通过主机名识别子网。
Weave 网络类似于主机 Overlay 技术,直接在主机上进行报文流量的封装,从而实现主机到主机的跨 Underlay 三层网络的互访,这是和 Flannel 网络的最大区别,Flannel 是一种网络 Overlay 方案。
Macvlan
Macvlan 是 Linux Kernel 比较新的特性,允许在主机的一个网络接口上配置多个虚拟的网络接口,这些网络 interface 有自己独立的 MAC 地址,也可以配置上 IP 地址进行通信。macvlan 下的虚拟机或者容器网络和主机在同一个网段中,共享同一个广播域。macvlan 和 bridge 比较相似,但因为它省去了 bridge 的存在,所以配置和调试起来比较简单,而且效率也相对高。除此之外,macvlan 自身也完美支持 VLAN。
ServiceMesh + CNI
ServiceMesh 和 CNI 是组合的关系,ServiceMesh 并不会替代 CNI,他们工作在不同的 SDN 层次,CNI 更多工作在 L2-4 层,ServiceMesh 在 L5-7 层 Application SDN。ServiceMesh 不能独立于 CNI 部署,与 CNI 一起提供层次化微服务应用所需要的网络服务。根据 Gartner 报告指出,在 2020 年,几乎 100% 容器云都将内置 ServiceMesh 技术。而目前开源的Istio 仅提供单一 Kubernetes 集群内部微服务治理,缺失异构容器云,跨云能力。
CNI 需要交付给容器云 L2-4 层细化至微服务内部的每个 POD 容器。应用终端交付所需要的 L2 网络连接,L3 路由,L2-4 层安全隔离,容器云整体安全,负载均衡等。
ServiceMesh 更多的致力于微服务应用层面的服务治理,致力于 L5-7 层网络服务,服务网格在每一个应用容器前部署一个 Sidecar Envoy 应用代理,提供微服务间的智能路由,分布式负载均衡,流量管理,蓝绿,金丝雀发布,微服务弹性,限流熔断,超时重试,微服务间的可视化,安全等等。
·
Docker 容器网络
Docker 提供几种类型的网络,它决定容器之间、容器与外界之前的通信方式。
基础网络类型
查看所有容器网络类型:
$ docker network ls NETWORK ID NAME DRIVER SCOPE c79756cf9cde bridge bridge local 204025a5abbc host host local 9b9024f5ac40 macvlan macvlan local 6478888548d8 none null local p2e02u1zhn8x overlay overlay swarm1234567
bridge 模式
bridge 模式的 Docker 网络基于 Linux 的虚拟网络技术来实现。Docker Container 的网络接口默认都是虚拟接口,可以充分发挥数据在不同 Container 之间或跨主机的 Container 之间的转发效率。这是因为 Linux 虚拟网络技术通过在内核中的数据复制来实现虚拟接口之间的数据转发,即:发送接口的发送缓存中的数据包将被直接复制到接收接口的接收缓存中,而无需通过外部物理网络设备进行交换。
当 Docker Daemon 启动后,会在宿主机上创建一个名为 docker0 的 Linux Bridge,在此宿主机上启动的 Docker Container 都会连接到这个虚拟网桥上。Docker Daemon 会从 docker0(一个虚拟的 L2 网络)子网中分配一个 IP 给 Container 使用,并设置 docker0 的 IP 地址为 Container 的默认网关。同时,在宿主机上创建一对 veth pair 虚拟网线设备,Docker Daemon 将 veth pair 设备的一端插入新建的 Container 中,并命名为eth0(容器的网卡),另一端插入 docker0 Linux Bridge 中,以 vethxxx 格式命名。
在这个网络的容器之间可以相互通信,外界想要访问到这个网络中的 Containers 也同样需要接入 bridge 网络并通过 iptables 做了
$ ip a 3: docker0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc noqueue state UP group default link/ether 02:42:46:c3:00:eb brd ff:ff:ff:ff:ff:ff inet 172.17.0.1/16 scope global docker0 valid_lft forever preferred_lft forever inet6 fe80::42:46ff:fec3:eb/64 scope link valid_lft forever preferred_lft forever $ docker run -itd --name box1 busybox $ docker exec -it box1 sh / # ip a 1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue qlen 1000 link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00 inet 127.0.0.1/8 scope host lo valid_lft forever preferred_lft forever inet6 ::1/128 scope host <a href="https://www.xiaoyuani.com/">艾晓园</a> forever preferred_lft forever
6: eth0@if7: <BROADCAST,MULTICAST,UP,LOWER_UP,M-DOWN> mtu 1500 qdisc noqueue link/ether 02:42:ac:11:00:02 brd ff:ff:ff:ff:ff:ff inet 172.17.0.2/16 scope global eth0 valid_lft forever preferred_lft forever inet6 fe80::42:acff:fe11:2/64 scope link valid_lft forever preferred_lft forever / # ip r default via 172.17.0.1 dev eth0 172.17.0.0/16 dev eth0 scope link src 172.17.0.2 $ brctl show bridge namebridge idSTP enabledinterfaces docker08000.024246c300ebnovethd4ae072
DNAT 规则,实现内外部地址转换。