Scikit-Learn机器学习介绍（中文翻译）

Scikit-Learn机器学习介绍（中文翻译）

Tue Dec 2, 2014

机器学习

scikit-learn

翻译

Python

翻译自：http://scikit-learn.org/stable/tutorial/basic/tutorial.html

以后可能会根据自己的学习慢慢翻译其他的章节，水平有限，不足之处请指正。

本章内容在本章中，我们会介绍在使用scikit-learn中遇到的机器学习(machine learning)术语，以及一个简单的机器学习例子。

机器学习：问题设定

一般来说，机器学习问题可以这样来理解：我们有n个样本(sample)的数据集，想要预测未知数据的属性。如果描述每个样本的数字不只一个，比如一个多维的条目（也叫做多变量数据(multivariate data)），那么这个样本就有多个属性或者特征。我们可以将学习问题分为以下几类：

有监督学习(unsupervised learning)是指数据中包括了我们想预测的属性，有监督学习问题有以下两类：

分类（classification）:样本属于两个或多个类别，我们希望通过从已标记类别的数据学习，来预测未标记数据的分类。例如，识别手写数字就是一个分类问题，其目标是将每个输入向量对应到有穷的数字类别。从另一种角度来思考，分类是一种有监督学习的离散（相对于连续）形式，对于n个样本，一方有对应的有限个类别数量，另一方则试图标记样本并分配到正确的类别。

回归(regression):如果希望的输出是一个或多个连续的变量，那么这项任务被称作*回归*，比如用年龄和体重的函数来预测三文鱼的长度。

无监督学习(unsupervised learning)的训练数据包括了输入向量X的集合，但没有相对应的目标变量。这类问题的目标可以是发掘数据中相似样本的分组，被称作聚类(Clustering)；也可以是确定输入样本空间中的数据分布，被称作密度估计（density estimation）;还可以是将数据从高维空间投射到两维或三维空间，以便进行数据可视化。这里是Scikit-Learn的无监督学习主页。

训练集和测试集机器学习是关于如何从数据学习到一些属性并且用于新的数据集。这也是为什么机器学习中评估算法的一个习惯做法是将手头已有的数据集分成两部分：一部分我们称作训练集（training set），用来学习数据的属性；另一部分叫做测试集（testing set），用来测试这些属性。

加载样例数据集

scikit-learn有一些标准数据集，比如用于分类的iris和digits数据集，和用于回归的波士顿房价(boston house prices)数据集。下面，我们会用shell里的Python解释器来加载iris和digits数据集。$表示shell提示符，>>>表示Python解释器提示符：

$python

>>>from sklearn import datasets

>>>iris = datasets.load_iris()

>>>digits = datasets.load_digits()

数据集类似字典对象，包括了所有的数据和关于数据的元数据（metadata）。数据被存储在.data成员内，是一个n_samples*n_features的数组。在有监督问题的情形下，一个或多个因变量（response variables）被储存在.target成员中。有关不同数据集的更多细节可以在这里被找到。例如，在digits数据集中，digits.data是可以用来分类数字样本的特征：

>>>print(digits.data) #doctest: +NORMALIZE_WHITESPACE[[ 0. 0. 5. ..., 0. 0. 0.][ 0. 0. 0. ..., 10. 0. 0.][ 0. 0. 0. ..., 16. 9. 0.]...,[ 0. 0. 1. ..., 6. 0. 0.][ 0. 0. 2. ..., 12. 0. 0.][ 0. 0. 10. ..., 12. 1. 0.]]

digits.target给出了digits数据集的真实值，即每个数字图案对应的我们想预测的真实数字：

>>>digits.target array([0,1,2, ...,8,9,8])

数据数组的形式数据是一个2维n_samples*n_features的数组，尽管原始数据集可能会有不同的形式。在digits数据集中，每个原始样本是一个8*8的数组，可以用以下方式访问：

>>>digits.images[0]array([[ 0., 0., 5., 13., 9., 1., 0., 0.],[ 0., 0., 13., 15., 10., 15., 5., 0.],[ 0., 3., 15., 2., 0., 11., 8., 0.],[ 0., 4., 12., 0., 0., 8., 8., 0.],[ 0., 5., 8., 0., 0., 9., 8., 0.],[ 0., 4., 11., 0., 1., 12., 7., 0.],[ 0., 2., 14., 5., 10., 12., 0., 0.],[ 0., 0., 6., 13., 10., 0., 0., 0.]])

这个简单的例子说明了如何从原始问题里将数据形式化，以便scikit-learn使用。

学习和预测

在digits数据集中，我们的任务是给定一个图案，预测其表示的数字是什么。我们的样本有10个可能的分类（数字0到9)，我们将拟合一个预测器(estimator)来预测(predict)未知样本所属的分类。在scikit-learn中，分类的预测器是一个Python对象，来实现fit(X, y)和predict(T)方法。下面这个预测器的例子是classsklearn.svm.SVC，实现了支持向量机分类。创建分类器需要模型参数，但现在，我们暂时先将预测器看作是一个黑盒：

>>>from sklearn import svm

>>>clf = svm.SVC(gamma=0.001,C=100.)

选择模型参数在这个例子里我们手动设置了gamma值。可以通过这些工具例如网格搜索（grid search）和交叉验证（cross validation）来自动找到参数的最佳取值。

给预测器取个名字叫做clf（claasifier）。现在预测器必须来拟合（fit）模型，也就是说，它必须从模型中学习（learn）。这个过程是通过将训练集传递给fit方法来实现的。我们将除了最后一个样本的数据全部作为训练集。通过Python语法

来选择训练集，这会生成一个新的数组，包含了除最后一个条目的digits.data：

>>> clf.fit(digits.data[:-1], digits.target[:-1])# doctest: +NORMALIZE_WHITESPACESVC(C=100.0, cache_size=200, class_weight=None, coef0=0.0, degree=3, gamma=0.001, kernel='rbf', max_iter=-1, probability=False, random_state=None, shrinking=True, tol=0.001, verbose=False)

现在你可以预测新值了，具体来说，我们可以询问分类器，digits数据集里最后一个图案所代表的数字是什么，我们并没有用最后一个数据来训练分类器。

>>>clf.predict(digits.data[-1])array([8])

最一个图案如下：

如你所见，这项任务很具有挑战性：这个图案的分辨率很差。你能和分类器得到一致结果吗？一个更复杂的分类问题的例子在这里:识别手写数字（Recognizing hand-written digits），供学习参考。

模型持久性（Model persistence）

可以采用Python内建的持久性模型pickle来保存scikit的模型:

>>>from sklearn import svm

>>>from sklearn import datasets

>>>clf = svm.SVC()

>>>iris = datasets.load_iris()

>>>X, y = iris.data, iris.target

>>>clf.fit(X, y)# doctest: +NORMALIZE_WHITESPACESVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0, degree=3, gamma=0.0, kernel='rbf', max_iter=-1, probability=False, random_state=None, shrinking=True, tol=0.001, verbose=False)

>>>import pickle

>>>s = pickle.dumps(clf)

>>>clf2 = pickle.loads(s)

>>>clf2.predict(X[0]) array([0])

>>>y[0]0

在scikit的特定情形下，用joblib’s来代替pickle（joblib.dump&joblib.load）会更吸引人，在大数据下效率更高，但只能pickle到磁盘而不是字符串：

>>>from sklearn.externals import joblib

>>>joblib.dump(clf,'filename.pkl')# doctest: +SKIP

你可以在之后重新加载pickled模型（可以在另一个Python程序里）：

>>>clf = joblib.load('filename.pkl')# doctest:+SKIP

注意： joblib.dump返回一个文件名列表。每个包含在clf对象中独立的numpy数组是在文件系统中是按顺序排列的一个独立文件。当用joblib.load重新加载模型时，所有文件必须在同一个目录下。

注意pickle有一些安全性和维护性问题。请参考模型持久性章节获得更多关于scikit-learn模型持久性的信息。

最后编辑于：2017.11.27 03:11:57

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 196,165评论 5赞 462
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 82,503评论 2赞 373
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 143,295评论 0赞 325
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,589评论 1赞 267
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 61,439评论 5赞 358
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,342评论 1赞 273
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,749评论 3赞 387
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,397评论 0赞 255
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,700评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,740评论 2赞 313
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,523评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,364评论 3赞 314
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,755评论 3赞 300
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,024评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,297评论 1赞 251
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,721评论 2赞 342
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,918评论 2赞 336

Scikit-Learn机器学习介绍（中文翻译）

推荐阅读更多精彩内容