- 最近一直想用机器学习做一个模型,然后暴露服务,提供restful接口给外部调用,这样也能体现出模型的价值,所以今天稍微捣鼓了一下,之前用过java的weka去做过,但是发现那个好麻烦,而且对很多算法的支持不够强大,社区好像也没太多人,所以今天转向python去做,python机器学习社区还是比较火的,我用的环境是anaconda,在jupyter下面去写的这个例子,前面主要是模型的训练,
后面用了python的flask框架做了一个restful接口,这样直接可以通过接口访问,直接通过json进行交互,屏蔽了平台的差异性。
import sys
print('Python: {}'.format(sys.version))
# scipy
import scipy
print('scipy: {}'.format(scipy.__version__))
# numpy
import numpy
print('numpy: {}'.format(numpy.__version__))
# matplotlib
import matplotlib
print('matplotlib: {}'.format(matplotlib.__version__))
# pandas
import pandas
print('pandas: {}'.format(pandas.__version__))
# scikit-learn
import sklearn
print('sklearn: {}'.format(sklearn.__version__))
# Load libraries
import pandas
from pandas.tools.plotting import scatter_matrix
import matplotlib.pyplot as plt
from sklearn import model_selection
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC
from flask import Flask
def study():
# Load dataset
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
names = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'class']
dataset = pandas.read_csv(url, names=names)
# Split-out validation dataset
array = dataset.values
X = array[:,0:4]
Y = array[:,4]
validation_size = 0.20
seed = 7
X_train, X_validation, Y_train, Y_validation = model_selection.train_test_split(X, Y, test_size=validation_size, random_state=seed)
# Test options and evaluation metric
seed = 7
scoring = 'accuracy'
# Spot Check Algorithms
models = []
models.append(('LR', LogisticRegression()))
models.append(('LDA', LinearDiscriminantAnalysis()))
models.append(('KNN', KNeighborsClassifier()))
models.append(('CART', DecisionTreeClassifier()))
models.append(('NB', GaussianNB()))
models.append(('SVM', SVC()))
# evaluate each model in turn
results = []
names = []
result = ""
for name, model in models:
kfold = model_selection.KFold(n_splits=10, random_state=seed)
cv_results = model_selection.cross_val_score(model, X_train, Y_train, cv=kfold, scoring=scoring)
results.append(cv_results)
names.append(name)
msg = "%s: %f (%f)" % (name, cv_results.mean(), cv_results.std())
result = result + msg
return result
app = Flask(__name__)
@app.route('/')
def index():
return study();
if __name__ == '__main__':
app.run(host='127.0.0.1',port=3366)
- 运行结果
Python: 3.6.1 |Anaconda 4.4.0 (x86_64)| (default, May 11 2017, 13:04:09)
[GCC 4.2.1 Compatible Apple LLVM 6.0 (clang-600.0.57)]
scipy: 0.19.0
numpy: 1.12.1
matplotlib: 2.0.2
pandas: 0.20.1
sklearn: 0.18.1
* Running on [http://127.0.0.1:3366/](http://127.0.0.1:3366/) (Press CTRL+C to quit)
- 调用rest api结果
- 感想与计划
之前一直觉得做一件事很难,的确,做好一件事并不简单,但是要是去入门什么的确实十分的简单,上面贴的那么多代码,我并不知道每个函数的具体用法,但是我可以推测出每个函数大致是在干什么,每个参数大致代表什么意思,因为我对机器学习这个流程很了解,所以我知道每一部分的代码在做什么,
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
names = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'class']
dataset = pandas.read_csv(url, names=names)
# Split-out validation dataset
array = dataset.values
X = array[:,0:4]
Y = array[:,4]
比如说上面的url表示的就是数据集的链接,names就是表示数据集的feature和target,很显然前面四个是这个数据集的feature也就是有4个特征,最后的class应该就是target(结论)。
那么接下来就是通过pandas去读取这个文件,当然pandas我也不知道是什么,但是我能猜出来大致是要通过这个url下载这个文件,而且保存为csv格式,然后给这些记录加上名称。
然后array就是取这个数据集里的值,X就是取0=<X<4列的数据,Y也就是取第4列的数据,作为target,在我们去做一些未知的事情的时候,有时类比和猜想能让我们快速的入门,即使有时候我们猜想是错误的,但是我们毕竟在这个过程中注入了自己的想法,这个和看到不懂的不会的直接去google差距还是很大的,后者也能解决问题,但是有一种依赖,前者或许有时候不能快速的解决问题,但是却能够培养我们一种良好的思维方式。记得之前在实习的时候,老大分给我一个任务,对于当时的我来说真的亚历山大,但是在我的努力下还是做出来了,虽然做的不够好有很多问题,但是经过后来的慢慢优化,一样可以做的很好,我们都是在成长,都是在学习,解决问题的方式很重要,有没有自己的想法也很重要,这也是我最近工作所感触最深的。
接下来计划把机器学习的库和工具熟练使用,这个过程就是去多做多看的过程,下面推荐一下官方文档,scikit-learn 这个就是python机器学习算法的库的教程,里面有大量的实例
http://scikit-learn.org/stable/documentation.html
既然用python去处理数据,有时候去找数据之前的关系的时候画图是最直观的http://matplotlib.org/api/pyplot_api.html ,patplotlib是python广泛使用的画图库,很好用。
https://docs.scipy.org/doc/numpy-dev/user/quickstart.html ,python处理数据的时候,涉及到一些科学计算,numpy是python比较有名的科学计算库,主要是数组的一些处理。
http://pandas.pydata.org/pandas-docs/stable/10min.html# pandas也是对于数据的处理,依赖于numpy,但是提供了一些更高级的操作,提供了丰富的时间序列功能,数据对齐, groupby, merge and join 方法,在金融领域得到广泛的应用