在我看来,容器就是一种特殊的进程。
想象一下,我们在运行一段程序时发生了什么?大体的过程可以分为如下几步:
- 操作系统从程序中读取数据,将数据加载到内存中待命;
- 操作系统从程序中读取指令,指示 CPU 完成操作;
- CPU 与内存写作进行数据处理,同时,使用寄存器存放数值,使用内存堆栈保存执行的命令和变量;
- 计算机中相关的文件和 I/O 设备更新状态;
进程是资源分配的最小单位。在上面的过程中,一旦“程序”被执行,它就从磁盘上的二进制文件,变成了计算机内存中的数据、寄存器里的值、堆栈中的指令、被打开的文件,以及各种设备的状态信息的一个集合。像这样一个程序运行起来后的计算机执行环境的总和,就是一个进程。
而容器技术的核心功能,就是通过约束和修改进程的动态表现,从而为其创造一个“边界”。
对于进程而言,它所能使用的资源就是宿主机为它分配的资源,一般来说,就是整个宿主机所有的资源,而它的进程视图,也就是宿主机内所有进程的运行状态,对于资源管理来说,这是一种非常简单粗暴的方式。有时候,我们想要对资源进行管理,比如,我们想要为进程 A 分配指定大小的资源,首先,我们可以采用在程序内指定数值的方式进行控制,但是这样一来,第一,增加了开发的成本,第二,修改起来也比较麻烦,这时候,使用容器进行管理就方便多了。那么,容器是如何做到的呢?
容器有两个非常关键的技术,一个叫做 Cgroups 技术,用来制造约束,另一个叫做 Namespace 技术,用来修改进程视图。
首先,我们来介绍 Namespace 技术。假设,我们现在宿主机上用容器运行一个程序,在宿主机上,我们看到,容器的进程 ID 是 N,而在容器中,我们会发现,程序的进程 ID 是 1,即对于程序而言,它是这个容器的第一个进程,假设现在我们的用户量增加了,需要创建一个新的进程,当我们用 clone() 系统调用一个新的进程,会发现,这个新的进程的进程 ID 也是 1,即在容器中运行了两个相同的进程 ID,这在真实的宿主机中当然不可能,但是在容器中,却可以通过 Namespace 技术修改进程视图。值得一提的是,除了 PID Namespace,Linux 操作系统还提供了 Mount、Uts、IPC、Network Namespace 和 User Namespace,用来对各种不同的进程上下文进行修改。
接下来,我们来介绍 Cgroups 技术。首先,我们来介绍容器的“隔离”。前面我们讲到,容器就是一种特殊的进程,这个特殊的进程相比于传统的虚拟机,额外的资源占用几乎为零,这就确保了容器化的“敏捷”和“高性能”,但是,也正因为容器只是一种特殊的进程,所以不同容器必须同享同一个宿主机的操作系统内核。其次,在 Linux 内核中,有很多资源和对象是不能被 Namespace 化的,最典型的例子就是:时间。最后,也是最重要的,在生产环境中,不能确保运行在物理机的 Linux 容器的安全性,或者说,确保安全性的成本过高,因此,最好不要把 Linux 容器直接暴露到公网上。接着,我们来介绍容器的“限制”。Linux Cgroups 的全称是 Linux Control Group,它最主要的作用是限制一个进程组能够使用的资源上限,包括 CPU、内存、磁盘、网络带宽等等。其中,CPU 子系统能够限制 CPU 的使用率,blkio 用于为磁盘等设备设定 I/O 限制,cpuset 为进程分配单独的 CPU 核和对应的内存节点,memory 为进程设定内存使用的限制。
最后,一个正在运行的 Docker 容器,其实就是一个启用了多个 Linux Namespace 的应用进程,而这个进程能够使用的资源量,则受 Cgroups 配置的限制。可以说,容器就是一个“单进程”模型,在一个容器中,你没办法同时运行两个不同的应用,除非你能事先找到一个公共的 PID=1 的程序来充当两个不同应用的父进程。