gunicorn多进程共享内存

文章转自：机器学习web服务化实战：一次吐血的服务化之路 - haolujun - 博客园 (cnblogs.com)

背景

在公司内部，我负责帮助研究院的小伙伴搭建机器学习web服务，研究院的小伙伴提供一个机器学习本地接口，我负责提供一个对外服务的HTTP接口。

说起人工智能和机器学习，python是最擅长的，其以开发速度快，第三方库多而广受欢迎，以至于现在大多数机器学习算法都是用python编写。但是对于服务化来说，python有致命的问题：很难利用机器多核。由于一个python进程中全局只有一个解释器，故多线程是假的，多个线程只能使用一个核，要想充分利用多核就必须使用多进程。此外由于机器学习是CPU密集型，其对多核的需求更为强烈，故要想服务化必须多进程。但是机器学习服务有一个典型特征：服务初始化时，有一个非常大的数据模型要加载到内存，比如我现在要服务化的这个，模型加载到内存需要整整8G的内存，之后在模型上的分类、预测都是只读，没有写操作。所以在多进程基础上，也要考虑内存限制，如果每个进程都初始化自己的模型，那么内存使用量将随着进程数增加而成倍上涨，如何使得多个进程共享一个内存数据模型也是需要解决的问题，特别的如何在一个web服务上实现多进程共享大内存模型是一个棘手的问题。

首先，我们来看看如何进行web服务化呢？我使用python中广泛利用的web框架：Flask + gunicorn。Flask + gunicorn我这里面认为大伙都用过，所以我后面写的就省略些，主要精力放在遇到的问题和解决问题的过程。

实现方式1：每个进程分别初始化自己的模型

为此我编写了一个python文件来对一个分类模型进行服务化，文件首先进行模型初始化，之后每次web请求，对请求中的数据data利用模型进行预测，返回其对应的标签。

#label_service.py
# 省略一些引入的包
model = Model() #数据模型
model.load()    #模型加载训练好的数据到内存中
app = Flask(__name__)
class Label(MethodView):
      def post(self):
        data = request.data
        label = model.predict(data)
        return label

app.add_url_rule('/labelservice/', view_func=Label.as_view('label'), methods=['POST','GET'])

利用gunicorn进行启动，gunicorn的好处在于其支持多进程，每个进程可以独立的服务一个外部请求，这样就可以利用多核。

gunicorn  -w8 -b0.0.0.0:12711 label_service:app

其中：
-w8 意思是启动8个服务进程。

满心欢喜的启动，但是随即我就发现内存直接爆掉。前面说过，我的模型加载到内存中需要8个G，但是由于我启动了8个工作进程，每个进程都初始化一次模型，这就要求我的机器至少有64G内存，这无法忍受。可是，如果我就开一个进程，那么我的多核机器的CPU就浪费了，怎么办？

那么有没有什么方法能够使得8个工作进程共用一份内存数据模型呢？很遗憾，python中提供多进程之间共享内存都是对于固定的原生数据类型，而我这里面是一个用户自定义的类。此外，模型中依赖的大量的第三方机器学习包，这些包本身并不支持共享内存方式，而且我也不可能去修改它们的源码。怎么办？

gunicorn 进程模型

仔细看了gunicorn的官方文档，其中就有对其工作模型的描述。

gunicorn主进程：负责fork子进程并监控子进程，根据外部信号来决定是否增加或者减少子进程的数量。
gunicorn子进程：负责接收web请求并且完成请求计算。

我突发奇想，我可以利用gunicorn父子进程在fork时共享父进程内存空间直接使用模型，只要没有对模型的写操作，就不会触发copy-on-write，内存就不会由于子进程数量增加而成本增长。原理图如下：

image.png

主进程首先初始化模型，之后fork的子进程直接就拥有父进程的地址空间。接下来的问题就是如何在gunicron的一个恰当的地方进行初始化，并且如何把模型传递给Flask。

实现方式2：利用gunicorn配置文件只在主进程中初始化模型

查看gunicorn官方文档，可以在配置文件配置主进程初始化所需的数据，gunicorn保证配置文件中的数据只在主进程中初始化一次。之后可以利用gunicorn中的HOOK函数pre_request，把model传递给flask处理接口。

#gunicorn.conf
import sys
sys.path.append(".") #必须把本地路径添加到path中，否则gunicorn找不到当前目录所包含的类
model = Model()
model.load()
def pre_request(worker, req):
  req.headers.append(('FLASK_MODEL', model)) #把模型通过request传递给flask。

pre_request = pre_request

#label_service.py
# 省略一些引入的包

app = Flask(__name__)
class Label(MethodView):
      def post(self):
        data = request.data
        model = request.environ['HTTP_FLASK_MODEL'] #从这里取出模型，注意多了一个HTTP前缀。
        label = model.predict(data)
        return label

app.add_url_rule('/labelservice/', view_func=Label.as_view('label'), methods=['POST','GET'])

启动服务：

gunicorn -c gunicorn.conf -w8 -b0.0.0.0:12711 label_service:app

使用 -c 指定我们的配置文件。

启动服务发现达到了我的目的，模型只初始化一次，故总内存消耗还是8G。

这里面提醒大家，当你用top看内存时，发现每个子进程内存大小还是8G，没有关系，我们只要看本机总的剩余内存是减少8G还是减少了8*8=64G。

到此，满心欢喜，进行上线，但是悲剧马上接踵而来。服务运行一段时间，每个进程内存陡增1G，如下图是我指定gunicorn进程数为1的时候，实测发现，如果启动8个gunicorn工作进程，则内存在某一时刻增长8G，直接oom。

image.png

到此，我的内心是崩溃的。不过根据经验我推测，在某个时刻某些东西触发了copy-on-write机制，于是我让研究院小伙伴仔细审查了一下他们的模型代码，确认没有写操作，那么就只可能是gunicorn中有写操作。

接下来我用蹩脚的英文在gunicorn中提了一个issue：https://github.com/benoitc/gunicorn/issues/1892 ，大神立刻给我指出了一条明路，原来是python的垃圾收集器搞的鬼，详见：https://bugs.python.org/issue31558 ，因为python的垃圾收集会更改每个类的 PyGC_Head，从而它触发了copy-on-write机制，导致我的服务内存成倍增长。

那么有没有什么方法能够禁止垃圾收集器收集这些初始化好的需要大内存的模型呢？有，那就是使用gc.freeze()，详见 https://docs.python.org/3.7/library/gc.html#gc.freeze 。但是这个接口在python3.7中才提供，为此我不得不把我的服务升级到python3.7。

实现方式3：python2.7升级到python3.7后使用gc.freeze()

升级python是一件非常痛苦的事情，因为我们的代码都是基于python2.7编写，许多语法在python3.7中不兼容，特别是字符串操作，简直恶心到死，只能一一改正，除此之外还有pickle的不兼容等等，具体修改过程不赘述。最终我们的服务代码如下。

#gunicorn.conf
import sys
import gc
sys.path.append(".") #必须把本地路径添加到path中，否则gunicorn找不到当前目录所包含的类
model = Model()
model.load()
gc.freeze() #调用gc.freeze()必须在fork子进程之前，在gunicorn的这个地方调用正好合适，freeze把截止到当前的所有对象放入持久化区域，不进行回收，从而model占用的内存不会被copy-on-write。
def pre_request(worker, req):
  req.headers.append(('FLASK_MODEL', model)) #把模型通过request传递给flask。

pre_request = pre_request

上线之后观察到，我们单个进程内存大小从8个G降低到6.5个G，这个推测和python3.7本身的优化有关。其次，运行一段时间后，每个子进程内存缓慢上涨500M左右后达到稳定，这要比每个子进程突然增加1G内存（并且不知道是否只突增一次）要好的多。

使用父子进程共享数据后需要进行预热

当使用gunicorn多进程实现子进程与父进程共享模型数据后，发现了一个问题：就是每个子进程模型的第一次请求计算耗时特别长，之后的计算就会非常快。这个现象在每个进程拥有自己的独立的数据模型时是不存在的，不知道是否和python的某些机制有关，有哪位小伙伴了解可以留言给我。对于这种情况，解决办法是在服务启动后预热，人为尽可能多发几个预热请求，这样每个子进程都能够进行第一次计算，请求处理完毕后再上线，这样就避免线上调用方长时间hang住得不到响应。

结语

到此，我的服务化之路暂时告一段落。这个问题整整困扰我一周，虽然解决的不是很完美，但是对于我这个python新手来说，还是收获颇丰。也希望我的这篇文章能够对小伙伴们产生一些帮助。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,214评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,307评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,543评论 0赞 341
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,221评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,224评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,007评论 1赞 284
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,313评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,956评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,441评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,925评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,018评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,685评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,234评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,240评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,464评论 1赞 261
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,467评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,762评论 2赞 345