07 回归算法 - 过拟合欠拟合案例

1、引入头文件

import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
import pandas as pd
import warnings
import sklearn
from sklearn.linear_model import LinearRegression, LassoCV, RidgeCV, ElasticNetCV
from sklearn.preprocessing import PolynomialFeatures#数据预处理，标准化
from sklearn.pipeline import Pipeline
from sklearn.linear_model.coordinate_descent import ConvergenceWarning

2、设置字符集，防止中文乱码，拦截异常

## 设置字符集，防止中文乱码
mpl.rcParams['font.sans-serif']=[u'simHei']
mpl.rcParams['axes.unicode_minus']=False
## 拦截异常
warnings.filterwarnings(action = 'ignore', category=ConvergenceWarning)

3、创建模拟数据

## 使得随机数据可预测，即只要seed的值一样，后续生成的随机数都一样。
np.random.seed(100)
#显示方式设置，每行的字符数用于插入换行符，是否使用科学计数法
np.set_printoptions(linewidth=1000, suppress=True)
N = 10
## linspace：x从0~6之间等步长取N个数 
## 由于seed(10)，固定了一种随机方案，np.random.randn(N)每次结果都一致
x = np.linspace(0, 6, N) + np.random.randn(N)
y = 1.8*x**3 + x**2 - 14*x - 7 + np.random.randn(N)
x.shape

4、将其设置为矩阵

#无论多少数据，生成一列，反之1，-1生成一行
x.shape = -1, 1 
y.shape = -1, 1 
x.shape

(10, 1)

5、配置多个管道

RidgeCV和Ridge的区别是：前者可以进行交叉验证
将多个管道嵌套，共4个管道Pipeline
看看每个管道做了什么操作

管道1：多形式扩展+线性回归
管道2：多形式扩展+RidgeCV
管道3：多形式扩展+LassoCV
管道4：多形式扩展+ElasticNetCV

目标：比较不同阶数的情况下，会不会出现过拟合的情况

models = [
    Pipeline([
            ('Poly', PolynomialFeatures(include_bias=False)),
            ('Linear', LinearRegression(fit_intercept=False))
        ]),
    Pipeline([
            ('Poly', PolynomialFeatures(include_bias=False)),
            ('Linear', RidgeCV(alphas=np.logspace(-3,2,50), fit_intercept=False))
        ]),
    Pipeline([
            ('Poly', PolynomialFeatures(include_bias=False)),
            ('Linear', LassoCV(alphas=np.logspace(0,1,10), fit_intercept=False))
        ]),
    Pipeline([
            ('Poly', PolynomialFeatures(include_bias=False)),
            ('Linear', ElasticNetCV(alphas=np.logspace(0,1,10)
               , l1_ratio=[.1, .5, .7, .9, .95, 1], fit_intercept=False))
        ])
]

6、使用管道1：多形式扩展+线性回归

model = models[0]
model.set_params(Poly__degree=3)
model.fit(x, y.ravel())
lin = model.get_params()
lin

{'Linear': LinearRegression(copy_X=True, fit_intercept=False, n_jobs=1, normalize=False),
'Linear__copy_X': True,
'Linear__fit_intercept': False,
'Linear__n_jobs': 1,
'Linear__normalize': False,
'Poly': PolynomialFeatures(degree=3, include_bias=False, interaction_only=False),
'Poly__degree': 3,
'Poly__include_bias': False,
'Poly__interaction_only': False,
'memory': None,
'steps': [('Poly',
PolynomialFeatures(degree=3, include_bias=False, interaction_only=False)),
('Linear',
LinearRegression(copy_X=True, fit_intercept=False, n_jobs=1, normalize=False))]}

lin1 = model.set_params(Poly__include_bias = True)
lin1

Pipeline(memory=None,
steps=[('Poly', PolynomialFeatures(degree=3, include_bias=True, interaction_only=False)), ('Linear', LinearRegression(copy_X=True, fit_intercept=False, n_jobs=1, normalize=False))])

7、线性模型过拟合图形识别

## 线性模型过拟合图形识别
plt.figure(facecolor='w')
degree = np.arange(1,N,4) # 阶
dm = degree.size
print('degree=',degree,'dm=',dm)

colors = [] # 颜色
for c in np.linspace(16711680, 255, dm):
    colors.append('#%06x' % int(c))

model = models[0]
for i,d in enumerate(degree):
    print("i=",i,'d=',d)
    ###subplot(m,n,p),m代表行,n代表列
    ## p代表的这个图形画在第几行、第几列
    ## ceil 向上取整
    plt.subplot(int(np.ceil(dm/2.0)),2,i+1)
    
    ## zorder 表示绘画的顺序，N约小越先画
    plt.plot(x, y, 'ro', ms=10, zorder=N)

    # 设置阶数
    model.set_params(Poly__degree=d)
    # 模型训练
    model.fit(x, y.ravel())
    
    lin = model.get_params('Linear')['Linear']
    output = u'%d阶，系数为：' % (d)
    print (output, lin.coef_.ravel())
    
    ## 产生模拟数据
    x_hat = np.linspace(x.min(), x.max(), num=100) 
    x_hat.shape = -1,1
    y_hat = model.predict(x_hat)
    s = model.score(x, y)
    ## 模型评分
    print('score=',s,'\n')
    
    z = N - 1 if (d == 2) else 0
    label = u'%d阶, 正确率=%.3f' % (d,s)
    plt.plot(x_hat, y_hat, color=colors[i], 
        lw=2, alpha=0.75, label=label, zorder=N)
    
    plt.legend(loc = 'upper left')
    plt.grid(True)
    plt.xlabel('X', fontsize=16)
    plt.ylabel('Y', fontsize=16)

plt.tight_layout(1, rect=(0,0,1,0.95))
plt.suptitle(u'线性回归过拟合显示', fontsize=22)
plt.show()

degree= [1 5 9] dm= 3
i= 0 d= 1
1阶，系数为： [-44.14102611 40.05964256]
score= 0.532590275112

i= 1 d= 5
5阶，系数为： [ -5.60899679 -14.80109301 0.75014858 2.11170671 -0.07724668 0.00566633]
score= 0.999984040519

i= 2 d= 9
9阶，系数为： [-2465.58381316 6108.63817712 -5111.99333504 974.74974891 1078.89649478 -829.50277842 266.13230658 -45.71741587 4.1158274 -0.15281063]
score= 1.0

总结：

1阶多项式扩展欠拟合，5阶多项式扩展相对比较优秀，9阶多项式扩展过拟合。
观察9阶多项式扩展的结果，系数都非常大。这是模型过多迎合了异常值造成的结果。
9阶多项式扩展形成的模型很难对测试集上的值进行准确预测。

模型每一个驻点的斜率为0，而当图像慢慢到驻点的过程中，斜率在逐渐变大，而斜率大意味着导数大。如果出现一个异常值斜率非常大，如果这个值的点本身不大(因为数据都做过标准化，普遍不会相差太多)，那么要使得斜率大，则系数必然大。只有这样才能保证导数值比较大。

所以，当模型过拟合的时候，一般系数都比较大。

通过这种方式去判断，即使不画图我们也能预测模型是否过拟合。

那么怎么解决这种过拟合的问题？

1、减少特征数。
2、增加正则项、惩罚项。

目标函数：

为了防止数据过拟合，也就是θ值在样本空间中不能过大/过小，可以在目标函数之上增加一个平方和损失：

9阶多项式展开后得到的模型虽然拟合度很高，但是将对应的θ值代入J(θ)，会发现J(θ)是一个非常大的数，说明损失函数非常大。
我们希望得到一组新的θ值，在评分好的同时，希望损失函数J(θ)相对较小。

在J(θ)中，λ的值越大，损失函数对模型的约束力越好。

损失函数的介绍：06 损失函数、过拟合欠拟合

最后编辑于：2018.10.19 11:54:31

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 200,176评论 5赞 469
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,190评论 2赞 377
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 147,232评论 0赞 332
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 53,953评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 62,879评论 5赞 360
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,177评论 1赞 277
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,626评论 3赞 390
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,295评论 0赞 254
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,436评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,365评论 2赞 317
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,414评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,096评论 3赞 315
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,685评论 3赞 303
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,771评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,987评论 1赞 255
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,438评论 2赞 346
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,032评论 2赞 341