COW技术已经很成熟的运用到Linux操作系统的很多方面,例如fork函数,btr文件系统,还有一些编程语言中的数据类型也用到COW的理念。其实Redis在做持久化的时候,也是用到这个技术。
什么是COW技术
实际上COW是一项内存资源管理的技术,它的主要一个用途是当一个父进程fork出子进程时,子进程不会立即开辟一段独有的内存去共享父进程所有的数据,而是通过共享内存的形式和父进程共享内存页,直到其中又一个进程改变内存中的内容。
共享的内存页会被标记为“COW”,这就告诉操作系统只要其中一个内存页被修改,这个别修改的内存页将会被创建出来,赋予修改后的数据。这样多进程的数据就不会相互影响。
假设有一个进程P,创建了一个子进程Q,此时进程P和Q共享父进程P的所有内存页
当进程P需要修改page3上某段memory的值时,操作系统会为进程P 开辟一块新的内存页,并拷贝page3上的所有数据,新的page3分配给主进程P,允许其修改新page3的数据。
COW的使用和内存使用情况
Linux操作系统中很多API都直接支持Copy On Write,其中用的比较多的就是mmap这个共享内存函数,你可以通过输入参数的flag来指定mode是COW。Python中也有native的lib去支持mmap调用,我们这里通过用numpy库里面封装的mmap函数来检验进程所占内存情况,之所以用到numpy那是因为通过这个库可以简单快速的创建一个很大的object。废话不多说,上代码片段
这里通过numpy库的memap函数,打开tmp目录下的test.log文件,这个文件将序列化成一个1024*1024*50的三维数组,并给数组每个元素赋值为1.文件生成后大约420M,整个进程占用440M内存。
通过COW的mode(flag用‘c’)再次打开/tmp/test.log文件,我们观察到进程的所使用的内存没有改变,这时变量mm和cow共享文件在kernel mode下内存数据,这也是Linux mapping memory机制比直接用open函数操作文件效率高,内存使用少的原因。
此时我们修改cow变量中的(0,0,0)这个位置的元素值,然后在观察mm变量中同一个位置的值是不是被修改了。
我们可以看到cow和mm同一个位置的值是不一样的,一个是0一个是7。这说明操作系统为cow开辟一个新的内存page去接受修改,原有的数据是不变的,这样证实了上一节COW的原理。
最后我们把cow里面所有元素的值改成7,再看看进程的内存使用情况。
可以看到当cow的全部数据修改后,进程内存使用率增加了原来1倍,达到845M。这说明操作系统重新开辟了整个共享内存的大小去接受整个cow的修改。这也说明当共享内存在只读的情况下,操作系统不会开辟新的内存去接受文件内容, 只有当有数据修改时才会把修改内容填入新开辟的内存。
这个例子简单说明了COW的特点,以后我还会继续补充COW在fork函数,Redis中运用。