背景
在大规模的容器集群内,镜像分发,往往需要消耗大量时间,并且会给镜像仓库带来很大的压力负担,通过 P2P 技术将流量分担到集群的每个节点上,这样可以大大缩短下载镜像的时间,并且能非常有效的减轻镜像仓库的压力。
介绍
Dragonfly 是阿里巴巴开源的基于 P2P 技术的 PB 级文件分发系统。
特点
- 基于 P2P 的文件分发:利用 P2P 技术进行文件传输,可以充分利用每个对等体的带宽资源,提高下载效率。节省了大量的跨 IDC 带宽,尤其是较高的跨板带宽成本
- 无缝支持各种容器技术:蜻蜓可以无缝支持各种容器分发图像。
- 主机级别的速度限制:许多下载工具(wget / curl)只对当前下载任务有速率限制,但蜻蜓仍然为整个主机提供速率限制。
- 拥抱 CDN:CDN 机制可以避免重复的远程下载。
- 强一致性:即使用户没有提供任何校验码(MD5),蜻蜓也可以保证所有下载的文件必须一致。
- 磁盘保护和高效 IO:预先检查磁盘空间,延迟同步,按最佳顺序写入文件块,拆分网络读取/磁盘写入等。
- 高性能:集群管理器是完全闭环的,即不依赖任何数据库和分布式缓存,处理性能极高的请求。
- 异常自动隔离:Dragonfly 将自动隔离异常节点(对等或集群管理器),以提高下载稳定性。
- 对于文件来源来说没有压力:一般来说,只需要少数几个 Cluster Managers 就能从源文件下载文件。
- 支持标准的 http 头:支持 http 头,通过 http 头提交认证信息。
- 有效的注册表验证的并发控制:降低注册表验证服务的压力。
- 简单易用:极少需要配置。
docker 镜像分发原理
docker pull 命令,会被 dfget proxy 截获。然后,由 dfget proxy 向 Cluster-Manager 发送调度请求,Cluster-Manager 在收到请求后会检查对应的下载文件是否已经被缓存到本地,如果没有被缓存,则会从 Registry 中下载对应的文件,并生成种子分块数据(种子分块数据一旦生成就可以立即被使用);如果已经被缓存,则直接生成分块任务,请求者解析相应的分块任务,并从其他 peer 或者 supernode 中下载分块数据,当某个 Layer 的所有分块下载完成后,一个 Layer 也就下载完毕了,同样,当所有的 Layer 下载完成后,整个镜像也就下载完成了。
搭建
supernode
可选:给 supernode 增加 docker 加速器,可以参考 cr.console.aliyun.com/cn-hangzhou… ,如果不需要,可以去掉。
cat <<EOD >/etc/docker/daemon.json {"registry-mirrors": ["https://q7z34bw0.mirror.aliyuncs.com"] } EOD
systemctl restart docker
docker run --name dragonfly-supernode --restart=always -d -p 8001:8001 -p 8002:8002 -v /root/dragonfly/supernode:/home/admin/supernode -v /etc/localtime:/etc/localtime dragonflyoss/supernode:1.0.2
dfclient
docker run --name dragonfly-dfclient --restart=always -d -p 65001:65001 -v /root/.small-dragonfly:/root/.small-dragonfly -v /etc/localtime:/etc/localtime dragonflyoss/dfclient:1.0.2 --registry https://index.docker.io --node localhost:8002 --ratelimit 100M
默认是限速20M,可以通过 --ratelimit
设置限速
cat <<EOD >/etc/docker/daemon.json {"registry-mirrors": ["http://127.0.0.1:65001"] } EOD
systemctl restart docker
建议:
supernode 和 dfclient 放在不同机器上测试
如何验证是否生效:
执行 docker pull
- 抓包:tcpdump -i lo port 65001
- 查看 supernode 日志:tail --200f /root/dragonfly/supernode/logs/app.log