特征缩放

1.Chris 的 T 恤尺寸（直觉）

在某些类型的机器学习算法中，特征缩放是特征预处理的一项重要步骤

特征缩放的作用
进行特征缩放的必要性

image.png

2. 由我们的度量确定的 Chris T恤尺寸

我们新建一个度量值“身高+体重”，根据这一度量更接近谁的数据来决定chris的衣服尺码

6. 利用不同的尺度来比较特征

“身高+体重”这一度量的两个特征“身高”和“体重”非常不平衡
身高范围：5~7
体重范围：115~175
因此如果计算两种特征的合计，那么就是体重几乎完全主导了答案，而身高成了舍入误差

我们可能希望在进行合计时，两个特征能够得到同等的重视，这时我们就需要特征缩放，这是一种重新缩放此类特征的一种方法，从而使特征跨越的范围有可比性，通常介于0~1
即体重和身高都用介于0~1的值进行表达，但不遗漏信息，这样再合计两个特征时，体重不再起着主导作用

7.特征缩放公式练习 1

特征缩放的一个优点是简单易懂

image.png

x`是要构建的新特征要通过原始特征来决定新特征取什么值
x-min 是原始特征在被缩放前所取的最小值
x-max 是原始特征在被缩放前所取的最大值
x 需要缩放的特征的原始值

特征缩放公式的一个特点是：
缩放后的特征值在[0,1]之间，这是优点也是缺点
优点：
预估输出相对稳定

缺点：
如果输入特征中有异常数值，那么特征缩放会比较棘手，因为x-min和x-max可能是极端值

10. 最小值/最大值重缩放器编码练习

def featureScaling(arr):
    new_features = []
    max_value = max(arr)
    min_value = min(arr)
    
    for i in arr:
        if max_value > min_value:
            new_features.append(float(i-min_value)/float(max_value-min_value))
    return new_features
data = [115, 140, 175]
print featureScaling(data)

11. sklearn 中的最小值/最大值缩放器

from sklearn.preprocessing import MinMaxScaler
import numpy as np 
weights = np.array([[115.],[140.],[175.]])
scaler = MinMaxScaler()
rescaled_weights = scaler.fit_transform(weights)  #fit 查找max min //transform 根据数据集中的所有元素应用公式
print rescaled_weights

MinMaxScaler
numpy array中的每个元素都会成为不同的训练点，训练点中的每个元素都会成为特征
列表中最小值经过重新缩放后的值为0
列表中最大值经过重新缩放后的值为1

12. 需要重缩放的算法练习

哪些机器学习算法会受到特征缩放的影响？
□× 决策树
□ √使用 RBF 核函数的 SVM
□ ×线性回归
□ √K-均值聚类
在支持向量机和k-mean cluster中，计算距离时，其实是在利用一个维度和另一个维度进行交换

以支持向量机为例，它有一条将距离最大化的线，而计算距离就是用一个维度和另一个维度进行交换

以k-mean cluster为例，我们有一个集群中心，要计算每个点到集群中心的距离

决策树不会呈现对角线，它会呈现出一系列水平线和垂直线，所以不存在交换，它只是在不同的方向上进行切割，在处理某一维度时，无需考虑另一维度

在线性回归中，每个特征都有一个系数，这个系数总是与相应的特征同时出现，特征a的变化不会影响特征b的系数

13. 特征缩放迷你项目简介

特征缩放改变聚类算法的输出

14. 特征缩放迷你项目

在上一个迷你项目中，你将安然人物的财务数据作为输入，对这些人物执行了 k-均值聚类。我们将更新那部分工作，以包含被缩放的特征，看看会有怎样的变化。

15缩放类型

回顾 [K-均值聚类迷你项目最后一部分]我们当时没有详细探讨缩放算法而部署了缩放，但是你现在更加了解具体的缩放算法了，并且可以分析出我们使用的是哪类缩放。

哪类缩放被部署了？
MinMaxScaler

16. 计算重缩放特征

对你在上一节课中的 k 均值聚类代码的“salary”和“exercised_stock_options”特征（仅这两项特征）运用特征缩放。原始值为 20 万美元的“salary”特征和原始值为 1 百万美元的“exercised_stock_options”特征的重缩放值会是多少？（确保呈现浮点型而非整数型数字！）

开始练习

原值为 200,000 的“salary”特征在尺度变换后的值会是什么，以及原值为 100 万美元的“exercised_stock_options”特征在尺度变换后的值会是什么？

from sklearn.preprocessing import MinMaxScaler
import numpy as np
salary_array = np.array(salary_list)
scaler = MinMaxScaler()
rescaled_salary = scaler.fit_transform(salary_array)  
print scaler.transform(200000)             #0.18

salary_list = []
for i in data_dict:
    salary = data_dict[i]['salary']
    if salary !='NaN':
        salary_list.append([salary])  



stock_list = []
for i in data_dict:
    stock = data_dict[i]['exercised_stock_options'] 
    if stock !='NaN':
        stock_list.append([stock])
stock_array = np.array(stock_list)
rescaled_stock = scaler.fit_transform(stock_array)
print scaler.transform(1000000)            #0.03

17.何时部署特征缩放

有人可能会质疑是否必须重缩放财务数据，也许我们希望 10 万美元的工资和 4 千万美元的股票期权之间存在巨大差异。如果我们想基于“from_messages”（从一个特定的邮箱帐号发出的电子邮件数）和“salary”来进行集群化会怎样？在这种情形下，特征缩放是不必要的，还是重要的？

如果你使用“from_messages”和“salary”作为聚类的特征，尺度将是不必要的还是重要的？
重要
Emails typically number in the hundreds or low thousands, salaries are usually at least 1000x higher.

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,684评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,143评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,214评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,788评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,796评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,665评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,027评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,679评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 41,346评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,664评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,766评论 1赞 331
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,412评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,015评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,974评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,203评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,073评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,501评论 2赞 343