引言
使用现成的 MNIST 数据集训练图像识别,包含 70000 个手写数字图像,其中 60000 个是训练数据,另外 10000 个是测试数据。每个样本有 784 个特征,因为数据集中存储的样本是 2828 像素的手写数字图片的像素信息,因此特征数是 2828=784 个。
在训练MLP 之前,还要将数据进行一些预处理,因为样本特征是从 0~255 的灰度值,
注释:数据集如果代码执行出错。则选择直接从本地导入数据集,mnist数据集需要手动下载
解决方法参考:机器学习实战(从本地导入mnist数据集)
使用神经网络训练图像识别,并识别手写数字图像(自己随便写一个或者下载一个)
#神经网络识别手写图像
from sklearn.datasets import fetch_mldata #导入数据获取工具
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap
from sklearn.neural_network import MLPClassifier #导入MLP神经网络
from sklearn.model_selection import train_test_split #切分训练集和测试集
from PIL import Image #导入图像处理工具
# from sklearn.datasets.base import get_data_home
# print (get_data_home())
#加载手写数据集
mnist = fetch_mldata('MNIST original',data_home='C:/Users/wp905/scikit_learn_data')
#查看样本数量和样本特征数
print('=========================')
print('样本数量:{},样本特征数:{}'.format(mnist.data.shape[0], mnist.data.shape[1]))
#建立训练集和测试集,为控制神经网络的训练时长,限定训练集和测试集的数量
X = mnist.data /255.
y = mnist.target
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size= 9000, test_size=1000, random_state=6)
#设置神经网络有2层100个节点的隐藏层
mlp_hw = MLPClassifier(solver='lbfgs', hidden_layer_sizes=[100,100], activation='relu', alpha= 1e-5, random_state=62)
mlp_hw.fit(X_train, y_train)
print('\n\n\n')
print('代码运行结果:')
print('==============================================')
print('测试集数据得分:{:.2f}%'.format(mlp_hw.score(X_test, y_test)*100))
#导入一个数字图片,并进行识别
#打开图像
image = Image.open('9.jpg').convert('F') #将图片转化为32位浮点灰色图像,即每个像素用32个bit来表示,0代表黑,255表示白
#调整图像的大小
image = image.resize((28,28))
arr=[]
#将图像中的像素作为预测数据点的特征
for i in range(28):
for j in range(28):
#由于MNIST数据集中 0 代表白色,1 代表黑色,因此还要用 1减去像素的灰度值,以保持和数据集一致
pixel = 1.0 - float(image.getpixel((j,i))) / 255. #每个像素的数值除以255,以保持和数据集一致
arr.append(pixel)
#由于只有一个样本,所以需要进行reshape操作
arr1 = np.array(arr).reshape(1,-1)
#print(arr1)
#进行图像识别
print('图片中的数字是:{:.0f}'.format(mlp_hw.predict(arr1)[0]))
使用的图像是网上下载的
执行结果如下:
=========================
样本数量:70000,样本特征数:784
代码运行结果:
==============================================
测试集数据得分:95.70%
图片中的数字是:9
总结
- 1.scikit-learn 中的MLP分类和回归在易用性方面表现的不错,但是仅限于处理小数据集。对庞大的或者复杂的数据集来说,力不从心
- 2.可以使用非常流行的几个Python深度学习库,比如,keras、theano、TensorFlow,这些深度学习库都支持 GPU加速,而scikit-learn并不支持,所以处理超大数据集的时候,以上几个深度学习库都要比scikit-learn效率更高。
- 3.对于特征类型比较单一的数据集来说,神经网络的表现不错;但如果数据集的特征类型差异比较大的话,随机森林或者是梯度上升随机决策树等基于决策树的算法表现会更好一些
- 4.初学者的神经网络调参原则:神经网络中的隐藏层的节点数约等于训练数据集的特征数量,但是一般不要超过500;在开始训练模型的时候,可以让模型尽量复杂,然后再对正则化参数apha进行调节来提高模型的表现。