Python机器学习之交叉验证

交叉验证是一种非常常用的对于模型泛化能力进行评估方法，交叉验证既可以解决数据集的数据量不够大问题，也可以解决参数调优的问题。常用的交叉验证方法有：简单交叉验证（HoldOut检验，例如train_test_split）、k折交叉验证（例如KFold）、自助法
kfold是将数据集划分为K-折，只是划分数据集；
cross_val_score是根据模型进行计算，计算交叉验证的结果，你可以简单认为就是cross_val_score中调用了kfold进行数据集划分。

扩展阅读博文
1.几种交叉验证（cross validation）方式的比较
 2.交叉验证以及scikit-learn中的cross_val_score详解
 3.python sklearn中KFold与StratifiedKFold
4.ML之sklearn：sklearn的make_pipeline函数、RobustScaler函数、KFold函数、cross_val_score函数的代码解释、使用方法之详细攻略

注：
klearn.model_selection模块官方说明文档
 sklearn.model_selection.KFold官方文档
 sklearn.model_selection.cross_val_score官方文档

函数原型：
sklearn.cross_validation.cross_val_score(estimator, X, y=None, scoring=None, cv=None, n_jobs=1, verbose=0, fit_params=None, pre_dispatch=‘2*n_jobs’)
参数解释：
estimator：数据对象
X：数据
y：预测数据
soring：调用的方法
cv：交叉验证生成器或可迭代的次数.cv可能的输入有:
-无，使用默认的三折交叉验证，
-整数，用于指定“(分层的)KFold”中的折叠数，
-用作交叉验证生成器的对象。
-一个可迭代产生的序列，测试分裂。
对于整数/无输入，如果估计器是一个分类器，并且' ' y ' '是二进制的或多类的，则使用:class: ' StratifiedKFold '。在所有其他情况下，使用:class: ' KFold '。
n_jobs：同时工作的cpu个数（-1代表全部）
verbose：详细程度
fit_params：传递给估计器的拟合方法的参数
pre_dispatch：控制并行执行期间调度的作业数量。减少这个数量对于避免在CPU发送更多作业时CPU内存消耗的扩大是有用的。该参数可以是：
1.没有，在这种情况下，所有的工作立即创建并产生。将其用于轻量级和快速运行的作业，以避免由于按需产生作业而导致延迟
2.一个int，给出所产生的总工作的确切数量
3.一个字符串，给出一个表达式作为n_jobs的函数，如'2 * n_jobs'
返回
交叉验证每次运行的评分数组

一、（分层）K折交叉验证

采用红酒数据进行交叉验证

#导入hongjiu数据
from sklearn.datasets import load_wine
#导入交叉验证数据
from sklearn.model_selection import cross_val_score,StratifiedKFold
#导入用于分类的支持向量机模型
from sklearn.svm import SVC

#载入红酒数据
wine = load_wine()

#设置SVC的核函数为 linear
svc = SVC(kernel='linear')

#使用交叉验证法对SVC进行评分
score = cross_val_score(svc, wine.data, wine.target)

print('交叉验证得分：{}'.format(score))
#获取平均分数
print('交叉验证平均得分：{:.3f}'.format(score.mean()))

print('\n======================设置cv=5')
#数据集拆分成5个部分来评分，cv=5
scores = cross_val_score(svc, wine.data, wine.target, cv = 5)
print('交叉验证得分：{}'.format(scores))
#获取平均分数
print('交叉验证平均得分：{:.3f}'.format(scores.mean()))

#打印红酒数据集的分类标签
print('酒的分类标签：\n{}'.format(wine.target))


print('\n======================使用StratifiedKFold 分层交叉验证')
strKFold = StratifiedKFold(n_splits=5,shuffle=False,random_state=0)
scores = cross_val_score(svc,wine.data, wine.target,cv=strKFold)
print("straitified cross validation scores:{}".format(scores))
print("Mean score of straitified cross validation:{:.3f}".format(scores.mean()))

print('\n======================使用KFold 交叉验证')
strKFold = KFold(n_splits=5,shuffle=False,random_state=0)
scores = cross_val_score(svc,wine.data, wine.target,cv=strKFold)
print("KFold cross validation scores:{}".format(scores))
print("Mean score of KFold cross validation:{:.3f}".format(scores.mean()))

执行结果如下所示：

[ 0.83333333  0.95        1.        ]
交叉验证得分：[ 0.83333333  0.95        1.        ]
交叉验证平均得分：0.928

======================设置cv=5
交叉验证得分：[ 0.86486486  0.97222222  0.97222222  1.          1.        ]
交叉验证平均得分：0.962
酒的分类标签：
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2]

======================使用StratifiedKFold 分层交叉验证
straitified cross validation scores:[ 0.86486486  0.97222222  0.97222222  1.          1.        ]
Mean score of straitified cross validation:0.962

======================使用KFold 交叉验证
KFold cross validation scores:[ 0.91666667  0.88888889  0.88888889  0.94285714  0.91428571]
Mean score of KFold cross validation:0.910

可以看出：
1.cross_val_score 在默认情况下会使用3个折叠，因此会得到3个分数
2.如果要将数据集拆分成5个部分来评分，那么需要修改cross_val_score的 cv 参数为5，就会得到5个评分
3.从红酒的标签可以看出，在拆分数据集的时候，有可能每个子集都是同一个标签，这样会导致模型的评分不高，所以采用分层k折交叉验证的优势在于，它会在每个不同分类中进行拆分，确保每个子集中都有数量基本一致的不同分类标签。
4.从分数可以看出。cross_val_score 对于分类模型默认采用的是分层k交叉验证。

二、随机拆分交叉验证

随机拆分交叉验证的原理是，先从数据集中随机抽取一部分数据集作为训练集，再从其余的部分随机抽取一部分作为测试集，进行评分后再迭代，重复上一步的动作，直到把我们希望迭代的次数全部跑完。
依旧采用红酒数据为例

函数原型：
sklearn.cross_validation.ShuffleSplit(n_splits=10, test_size=None, train_size=None, random_state=None)[source]
作用：生成高斯分布的概率密度随机数
参数解释：
n_splits :产生的随机抽样组数
test_size :测试集比例或样本数量，该值为[0.0, 1.0]内的浮点数时，表示测试集占总样本的比例；该值为整型值时，表示具体的测试集样本数量；train_size不设定具体数值时，该值取默认值0.1，train_size设定具体数值时，test_size取剩余部分
train_size : 训练集比例或样本数量，该值为[0.0, 1.0]内的浮点数时，表示训练集占总样本的比例；该值为整型值时，表示具体的训练集样本数量；该值为None(默认值)时，训练集取总体样本除去测试集的部分
random_state :随机数种子

#导入hongjiu数据
from sklearn.datasets import load_wine
#导入交叉验证数据
from sklearn.model_selection import cross_val_score,ShuffleSplit # ShuffleSplit随机拆分工具
#导入用于分类的支持向量机模型
from sklearn.svm import SVC

#载入红酒数据
wine = load_wine()

#设置SVC的核函数为 linear
svc = SVC(kernel='linear')

#二、使用随机拆分交叉验证法对SVC进行评分
#设置拆分的份数为10个
shuffle_split = ShuffleSplit(test_size=.2, train_size=.7, n_splits=10)
#对拆分好的数据进行交叉验证
scores = cross_val_score(svc,wine.data, wine.target,cv=shuffle_split)
print('\n======================使用shuffle_split 交叉验证')
print("shuffle_split cross validation scores:{}".format(scores))
print("Mean score of shuffle_split cross validation:{:.3f}".format(scores.mean()))

执行结果如下所示：

======================使用shuffle_split 交叉验证
shuffle_split cross validation scores:[ 0.91666667  1.          0.97222222  0.97222222  0.86111111  0.94444444
  0.88888889  0.94444444  0.94444444  0.91666667]
Mean score of shuffle_split cross validation:0.936

ShuffleSplit 一共为SVC模型进行了10次评分。

三、留一法交叉验证

与k折交叉验证类似，只是它把每一个数据点都当成一个测试集，所以，数据集中有多少个样本，它就要迭代多少次，如果数据集的数据量较大的话，是比较耗时的；但是。如果数据量很小的话，它的评分准确度是最高的。

#导入hongjiu数据
from sklearn.datasets import load_wine
#导入交叉验证数据
from sklearn.model_selection import cross_val_score,LeaveOneOut 
#导入用于分类的支持向量机模型
from sklearn.svm import SVC

#载入红酒数据
wine = load_wine()

#设置SVC的核函数为 linear
svc = SVC(kernel='linear')

#三、使用LeaveOneOut交叉验证法对SVC进行评分
cv = LeaveOneOut()
#对拆分好的数据进行交叉验证
scores = cross_val_score(svc,wine.data, wine.target,cv=shuffle_split)
print('\n======================使用LeaveOneOut 交叉验证')
print("迭代次数:{}".format(len(scores)))
print("Mean score of LeaveOneOut cross validation:{:.3f}".format(scores.mean()))

执行结果如下所示：

======================使用LeaveOneOut 交叉验证
迭代次数:178
Mean score of LeaveOneOut cross validation:0.955

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,839评论 6赞 482
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,543评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 153,116评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,371评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,384评论 5赞 374
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,111评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,416评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,053评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,558评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,007评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,117评论 1赞 334
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,756评论 4赞 324
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,324评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,315评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,539评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,578评论 2赞 355
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,877评论 2赞 345

Python机器学习之交叉验证

一、（分层）K折交叉验证

二、随机拆分交叉验证

三、留一法交叉验证

推荐阅读更多精彩内容