如何使用 Java 调取 Python、R 的训练模型？

原文地址：https://mp.weixin.qq.com/s/mqAkgma3CBFNTxl__vktKQ

在工业界，我们经常会使用 Python 或 R 来训练离线模型，使用 Java 来做在线 Web 开发应用——这就涉及到了使用 Java 跨语言来调用 Python 或 R 训练的模型。

PMML

PMML 是 Predictive Model Markup Language 的缩写，翻译为中文就是“预测模型标记语言”。它是一种基于XML的标准语言，用于表达数据挖掘模型，可以用来在不同的应用程序中交换模型。

也就是说它定义了一个标准，不同语言都可以根据这个标准来实现。关于 PMML 内部的实现原理细节，我们这里不做深究，感兴趣的可以参见：http://dmg.org/pmml/v4-3/GeneralStructure.html。

PMML 能做什么

介绍完了 PMML 的概念后，大家可能还是很懵，不清楚它有什么用。先来相对正式地说下它的用处：对于 PMML，使用一个应用程序很容易在一个系统上开发模型，并且只需通过发送XML配置文件就可以在另一个系统上使用另一个应用程序部署模型。也就是说我们可以通过 Python 或 R 训练模型，将模型转为 PMML 文件，再使用 Java 根据 PMML 文件来构建 Java 程序。

来看一张关于 PMML 用途的图片：

这张图的信息来一一说明下：

整个流程分为两部分：离线和在线。

离线部分流程是将样本进行特征工程，然后进行训练、生成模型。一般离线部分常用 Python 中的 sklearn、R 或者 Spark ML 来训练模型。

在线部分是根据请求得到样本数据，对这些数据采用与离线特征工程一样的方式来处理，然后使用模型进行评估。一般在线部分常用 Java、C++ 来开发。

离线部分与在线部分是通过 PMML 连接的，也就是说离线训练好了模型之后，将模型导出为 PMML 文件，在线部分加载该 PMML 文件生成对应的评估模型。

我们可以看到，PMML 是连接离线与在线环节的关键，一般导出 PMML 文件和加载 PMML 文件都需要各个语言来做单独的实现。不过幸运的是，已经有很多大神实现了这些，可以参见：https://github.com/jpmml 。

实战环节

训练并导出 PMML

我们这里仍然是通过 sklearn 训练一个随机森林模型，我们需要借助 sklearn2pmml 将 sklearn 训练的模型导出为 PMML 文件。如果没有 sklearn2pmml，请输入以下命令来安装：

pip install --user git+https://github.com/jpmml/sklearn2pmml.git

我们来看下如何使用 sklearn2pmml 。

fromsklearn.datasetsimportload_iris

fromsklearn.ensembleimportRandomForestClassifier

fromsklearn2pmmlimportPMMLPipeline, sklearn2pmml

iris = load_iris()

# 创建带有特征名称的 DataFrame

iris_df = pd.DataFrame(iris.data, columns=iris.feature_names)

# 创建模型管道

iris_pipeline = PMMLPipeline([

("classifier", RandomForestClassifier())

])

# 训练模型

iris_pipeline.fit(iris_df, iris.target)

# 导出模型到 RandomForestClassifier_Iris.pmml 文件

sklearn2pmml(iris_pipeline,"RandomForestClassifier_Iris.pmml")

导出成功后，我们将在当前路径看到一个 PMML 文件：RandomForestClassifier_Iris.pmml。

导入 PMML 并进行评估

生成了 PMML 文件后，接下来我们要做的就是使用 Java 导入（加载）PMML文件。这里借助了 Java 的第三方依赖：pmml-evaluator。我们需要在 pom.xml 文件中加入以下依赖：

org.jpmml

pmml-evaluator

1.4.1

org.jpmml

pmml-evaluator-extension

1.4.1

引入 PMML 文件并进行评估的代码如下：

importorg.dmg.pmml.FieldName;

importorg.dmg.pmml.PMML;

importorg.jpmml.evaluator.*;

importorg.jpmml.model.PMMLUtil;

importorg.xml.sax.SAXException;

importjavax.xml.bind.JAXBException;

importjava.io.FileInputStream;

importjava.io.FileNotFoundException;

importjava.io.IOException;

importjava.io.InputStream;

importjava.util.ArrayList;

importjava.util.HashMap;

importjava.util.List;

importjava.util.Map;

publicclassClassificationModel{

privateEvaluator modelEvaluator;

/**

* 通过传入 PMML 文件路径来生成机器学习模型

*@parampmmlFileName pmml 文件路径

publicClassificationModel(String pmmlFileName){

PMML pmml =null;

try{

if(pmmlFileName !=null) {

InputStream is =newFileInputStream(pmmlFileName);

pmml = PMMLUtil.unmarshal(is);

try{

is.close();

}catch(IOException e) {

System.out.println("InputStream close error!");

}

ModelEvaluatorFactory modelEvaluatorFactory = ModelEvaluatorFactory.newInstance();

this.modelEvaluator = (Evaluator) modelEvaluatorFactory.newModelEvaluator(pmml);

modelEvaluator.verify();

System.out.println("加载模型成功！");

}

}catch(SAXException e) {

e.printStackTrace();

}catch(JAXBException e) {

e.printStackTrace();

}catch(FileNotFoundException e) {

e.printStackTrace();

}

// 获取模型需要的特征名称

publicListgetFeatureNames(){

List featureNames =newArrayList();

List inputFields = modelEvaluator.getInputFields();

for(InputField inputField : inputFields) {

featureNames.add(inputField.getName().toString());

}

returnfeatureNames;

}

// 获取目标字段名称

publicStringgetTargetName(){

returnmodelEvaluator.getTargetFields().get(0).getName().toString();

}

// 使用模型生成概率分布

privateProbabilityDistributiongetProbabilityDistribution(Map arguments){

Map evaluateResult = modelEvaluator.evaluate(arguments);

FieldName fieldName =newFieldName(getTargetName());

return(ProbabilityDistribution) evaluateResult.get(fieldName);

}

// 预测不同分类的概率

publicValueMappredictProba(Map arguments){

ProbabilityDistribution probabilityDistribution = getProbabilityDistribution(arguments);

returnprobabilityDistribution.getValues();

}

// 预测结果分类

publicObjectpredict(Map arguments){

ProbabilityDistribution probabilityDistribution = getProbabilityDistribution(arguments);

returnprobabilityDistribution.getPrediction();

}

publicstaticvoidmain(String[] args){

ClassificationModel clf =newClassificationModel("RandomForestClassifier_Iris.pmml");

List featureNames = clf.getFeatureNames();

System.out.println("feature: "+ featureNames);

// 构建待预测数据

Map waitPreSample =newHashMap<>();

waitPreSample.put(newFieldName("sepal length (cm)"),10);

waitPreSample.put(newFieldName("sepal width (cm)"),1);

waitPreSample.put(newFieldName("petal length (cm)"),3);

waitPreSample.put(newFieldName("petal width (cm)"),2);

System.out.println("waitPreSample predict result: "+ clf.predict(waitPreSample).toString());

System.out.println("waitPreSample predictProba result: "+ clf.predictProba(waitPreSample).toString());

}

输出结果：

加载模型成功！

feature: [sepal length (cm), petal width (cm), sepal width (cm), petal length (cm)]

waitPreSample predict result: 1

waitPreSample predictProba result: {0=0.0, 1=0.5, 2=0.5}

可以看到，模型需要的特征为：[sepal length (cm), petal width (cm), sepal width (cm), petal length (cm)]，预测该样本最终属于目标编号为 1 的类型，预测该样本属于不同目标编号的概率分布，{0=0.0, 1=0.5, 2=0.5}。

小结

为了实现 Java 跨语言调用 Python/R 训练好的模型，我们借助 PMML 的规范，将模型固化为 PMML 文件，再使用该文件生成模型来评估

最后编辑于：2018.08.10 18:01:11

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,937评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,503评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,712评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,668评论 1赞 276
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,677评论 5赞 366
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,601评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,975评论 3赞 396
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,637评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,881评论 1赞 298
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,621评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,710评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,387评论 4赞 319
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,971评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,947评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,189评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,805评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,449评论 2赞 342

如何使用 Java 调取 Python、R 的训练模型？

推荐阅读更多精彩内容