【阿旭机器学习实战】【23】特征降维实战---人脸识别降维建模，并选出最有模型进行未知图片预测

【阿旭机器学习实战】系列文章主要介绍机器学习的各种算法模型及其实战案例，欢迎点赞，关注共同学习交流。

本文使用PCA降维的方式对图片进行降维之后，使用不同的分类模型进行训练预测，并选取预测结果最好的模型进行建模，然后对位置图片使用模型进行预测。

对于PCA降维的介绍，请参考之前的博文【阿旭机器学习实战】【22】特征降维实战---主成分分析(PCA)与线性判别分析算法（LDA）

PCA特征降维实战---人脸识别
问题描述--人脸识别
1. 导入数据并查看数据
2. 划分训练数据和测试数据
3. PCA降维
4. 用监督学习相关算法，来降维后的特征进行训练并预测
4.1对各个分类模型算法进行交叉验证，寻求最好的那个模型
4.2 预测结果展示
4.3 下载照片并使用模型进行预测

PCA特征降维实战—人脸识别

问题描述–人脸识别

通过训练一批人的人脸数据，然后从其他地方获取一种图片让模型认识这个图片代表的谁？

判断人脸需要用监督学习，人脸的维度过高，监督学习判断的时候就会出现两个问题：算法效率会非常低和算方法的精准度也会降低。

我们在进行监督学习之前要进行特征降维，然后使用降维后的特征进行建模，以提高算法效率与准确度。

1. 导入数据并查看数据

import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

from sklearn import datasets

# 导入人脸数据
faces = datasets.fetch_lfw_people(min_faces_per_person=70,
                                  slice_=(slice(0,250,None),slice(0,250,None)),resize=1)
# 这个函数首先会去本地缓存地址中去加载数据，如果没有缓存，去datasets中加载并缓存到本地

dir(faces)#查看数据的属性

['DESCR', 'data', 'images', 'target', 'target_names']

# 各个属性的维度
print(faces.data.shape)
print(faces.images.shape)
print(faces.target.shape)
print(faces.target_names.shape)

(1288, 62500)
(1288, 250, 250)
(1288,)
(7,)

从上面数据可以看出有1288条数据，图片大小为250 * 250，像素点个数为 250 * 250 = 62500，也就是特征有62500个，一共有7个类型的标签（人）。

data = faces.data
target = faces.target
target_names = faces.target_names
imgs = faces.images

# 查看7个人的名字
target_names

array(['Ariel Sharon', 'Colin Powell', 'Donald Rumsfeld', 'George W Bush',
       'Gerhard Schroeder', 'Hugo Chavez', 'Tony Blair'], dtype='<U17')

plt.imshow(imgs[100],cmap="gray")

image.png

2. 划分训练数据和测试数据

from sklearn.model_selection import train_test_split,cross_val_score

x_train,x_test,y_train,y_test = train_test_split(data,target,test_size=0.05)

3. PCA降维

from sklearn.decomposition import PCA

# 提取300个特征数据
pca = PCA(n_components=300)

# 训练
pca.fit(x_train)

PCA(copy=True, iterated_power='auto', n_components=300, random_state=None,
  svd_solver='auto', tol=0.0, whiten=False)

# 将训练特征转换到PCA特征空间
x_train_pca = pca.transform(x_train)

x_train.shape,x_train_pca.shape

((1223, 62500), (1223, 300))

我们可以看到，特征数目从62500直接减少为了300。直接减少了好几个量级。

x_test.shape

(65, 62500)

# 对测试特征进行降维
x_test_pca = pca.transform(x_test)# 【注意】这里不需要再训练，直接转化

4. 用监督学习相关算法，来降维后的特征进行训练并预测

from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import SGDClassifier
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.naive_bayes import GaussianNB

4.1对各个分类模型算法进行交叉验证，寻求最好的那个模型

# KNN模型
knn = KNeighborsClassifier()

cross_val_score(knn,x_train_pca,y_train)

array([0.46585366, 0.47911548, 0.44581281])

# SGD模型
sgd = SGDClassifier()

cross_val_score(sgd,x_train_pca,y_train)

array([0.53170732, 0.51351351, 0.49014778])

# 决策树模型
dt = DecisionTreeClassifier()

cross_val_score(dt,x_train_pca,y_train)

array([0.27560976, 0.28501229, 0.29802956])

# 朴素贝叶斯模型
g_NB = GaussianNB()

cross_val_score(g_NB,x_train_pca,y_train)

array([0.50731707, 0.47911548, 0.46305419])

# SVC模型
svc = SVC(kernel="linear")

cross_val_score(svc,x_train_pca,y_train)

array([0.77073171, 0.77641278, 0.74137931])

经过上面的交叉验证发现，SVC的linear核函数模型的预测效果最好,下面使用SVC进行建模。

svc.fit(x_train_pca,y_train)

SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma='auto', kernel='linear',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False)

y_ = svc.predict(x_test_pca)

y_,y_test

(array([6, 6, 3, 3, 2, 1, 1, 6, 3, 3, 1, 3, 3, 3, 1, 4, 3, 4, 3, 6, 0, 1,
        6, 3, 2, 4, 3, 2, 3, 1, 3, 3, 3, 6, 1, 4, 1, 3, 1, 3, 3, 6, 5, 2,
        4, 3, 3, 1, 2, 3, 3, 0, 6, 6, 6, 0, 4, 6, 3, 3, 0, 6, 6, 4, 0],
       dtype=int64),
 array([4, 6, 3, 3, 3, 1, 1, 6, 3, 3, 1, 3, 3, 3, 1, 4, 3, 4, 1, 4, 0, 1,
        6, 3, 2, 5, 3, 3, 3, 1, 3, 3, 3, 6, 1, 4, 1, 3, 1, 3, 3, 6, 5, 0,
        4, 3, 6, 3, 2, 2, 3, 0, 6, 6, 6, 0, 4, 4, 2, 3, 0, 6, 6, 4, 0],
       dtype=int64))

svc.score(x_test_pca,y_test)

0.8153846153846154

from sklearn.metrics import classification_report

# 模型结果评估
print(classification_report(y_,y_test))

             precision    recall  f1-score   support

          0       0.83      1.00      0.91         5
          1       0.90      0.90      0.90        10
          2       0.50      0.40      0.44         5
          3       0.87      0.83      0.85        24
          4       0.67      0.86      0.75         7
          5       0.50      1.00      0.67         1
          6       0.91      0.77      0.83        13

avg / total       0.82      0.82      0.81        65

4.2 预测结果展示

画出65个人的人脸图片，并且标注真正是谁，预测的名字是谁

plt.figure(figsize=(5*3,13*4))

for i in range(65):
    axes = plt.subplot(13,5,i+1)
    axes.imshow(x_test[i].reshape((250,250)),cmap="gray")
    axes.axis("off")
    axes.set_title("True:%s\nPre:%s"%(target_names[y_test[i]],target_names[y_[i]]))

image.png

4.3 下载照片并使用模型进行预测

从网上下载一个Bush或者其他人的图片，然后处理成符合我们规定灰度级图片，用我们模型来预测该图片是谁

bush = plt.imread("./data/bush.jpg")

bush.shape

(625, 500, 3)

plt.imshow(bush)

image.png

把图片灰度化

bush1 = np.dot(bush,[0.299,0.587,0.114])

plt.imshow(bush1,cmap="gray")

image.png

# 对行进行切片，将图片大小变为250 * 250，才可以用上述模型进行预测
bush2 = bush1[50:550][::2,::2]

plt.imshow(bush2)

image.png

# 使用PCA对图片进行特征转换
bush_pca = pca.transform(bush2.reshape((1,-1)))

name = svc.predict(bush_pca)

target_names[name]

array(['George W Bush'], dtype='<U17')

模型对照片的预测结果为George W Bush，与实际情况一致。

如果内容对你有帮助，感谢点赞+关注哦！

更多干货内容持续更新中…

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,937评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,503评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,712评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,668评论 1赞 276
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,677评论 5赞 366
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,601评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,975评论 3赞 396
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,637评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,881评论 1赞 298
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,621评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,710评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,387评论 4赞 319
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,971评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,947评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,189评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,805评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,449评论 2赞 342

【阿旭机器学习实战】【23】特征降维实战---人脸识别降维建模，并选出最有模型进行未知图片预测

【阿旭机器学习实战】【23】特征降维实战---人脸识别降维建模，并选出最有模型进行未知图片预测

目录

PCA特征降维实战—人脸识别

问题描述–人脸识别

1. 导入数据并查看数据

2. 划分训练数据和测试数据

3. PCA降维

4. 用监督学习相关算法，来降维后的特征进行训练并预测

4.1对各个分类模型算法进行交叉验证，寻求最好的那个模型

4.2 预测结果展示

4.3 下载照片并使用模型进行预测

推荐阅读更多精彩内容