[Deep-Learning-with-Python]神经网络的数学基础

理解深度学习需要熟悉一些简单的数学概念：Tensors(张量)、Tensor operations 张量操作、differentiation微分、gradient descent 梯度下降等等。

“Hello World”----MNIST 手写数字识别

#coding:utf8
import keras
from keras.datasets import mnist
from keras import models
from keras import layers
from keras.utils import to_categorical
# 加载MNIST数据集
(train_images,train_labels),(test_images,test_labels) = mnist.load_data()

# 定义网络架构
network = models.Sequential()
network.add(layers.Dense(512,activation="relu",input_shape=(28*28,)))
network.add(layers.Dense(10,activation="softmax"))

# 定义网络优化：优化算法、损失函数以及评价指标
network.compile(optimizer='rmsprop',loss="categorical_crossentropy",metrics=['accuracy'])

# 数据预处理：images 缩放到[0,1]之间
train_images = train_images.reshape(60000,28*28)
train_images = train_images.astype('float32') / 255

test_images = test_images.reshape(test_images.shape[0],28*28)
test_images = test_images.astype('float32') / 255

# 数据预处理：labels：one-hot 编码
train_labels = to_categorical(train_labels)
test_labels = to_categorical(test_labels)

# 模型训练
network.fit(train_images,train_labels,epochs=5,batch_size=128)

# 模型测试
test_loss, test_acc = network.evaluate(test_images,test_labels)
print('test accuracy:',test_acc)
# test accuracy: 0.9727

由上面的程序，我们了解了如何构建网络以及如何进行网络训练来识别手写字体

神经网络的数据表示

当下几乎所有的机器学习框架都使用tensors张量作为基本的数据结构。Tensor本质上是一个数据容器，大多数为数值型数据，也就是说tensor是存储数字的容器。矩阵是二维的张量，张量是任意维数的矩阵的推广(tensor的一个维度通常称为一个轴axis，而不是dimension)。

Scalars（0D tensors）标量--0维张量

只包含一个数字的张量tensor叫做标量scaler(或者0D tensor). 在numpy中，一个float32,或float64类型的数字是一个标量。可以通过tensor的ndim属性查看tensor的维度；张量的维度为0，同时维度也称为秩rank。

>>> import numpy as np
>>> x = np.array(12)
>>> x
array(12)
>>> x.ndim
0

向量(一维张量 1D)

一维数组称为向量，或一维张量。一维张量有一个轴axis；

>>> x = np.array([13, 31, 7, 14])
>>> x
array([13, 31, 7, 14])
>>> x.ndim
1

上述向量有5个条目，因此称为5维向量。5维向量和5维张量并不相同。5维向量指一个轴5个元素。5维张量有5个轴。

矩阵(二维张量 2D)

向量数组为一个矩阵，即二维张量。一个矩阵有二个轴。

>>> x = np.array([[5, 78, 2, 34, 0],
[6, 79, 3, 35, 1],
[7, 80, 4, 36, 2]])
>>> x.ndim
2

三维张量以及更高维张量

矩阵数组称为三维张量，可以看做是数字的立方体。

>>> x = np.array([[[5, 78, 2, 34, 0],
[6, 79, 3, 35, 1],
[7, 80, 4, 36, 2]],
[[5, 78, 2, 34, 0],
[6, 79, 3, 35, 1],
[7, 80, 4, 36, 2]],
[[5, 78, 2, 34, 0],
[6, 79, 3, 35, 1],
[7, 80, 4, 36, 2]]])
>>> x.ndim
3

3维张量数组形成一个4维张量，以此类推。深度学习中，一般操作0D~4D的张量。

核心属性

tensor张量由3个重要的属性：

Number of axes轴的个数(秩)。3D tensor有3个轴。可以通过tensor的ndim属性查看轴的个数。
Shape形状：数字元组，描述张量各个轴上的维度。张量维度为(),向量维度为(5,),2D张量维度（3,5),3D张量维度(3,3,5).
Data type数据类型(dtype属性)：张量中数字的数据类型，如float32，uint8，float64等等。

数据批量data batches

深度学习中数据张量的第一轴(axis 0)通常是样本轴(样本维度)---表示样本量的数目。MNIST数据集中，样本是数字图片。
此外，深度学习处理数据过程中并不一次性对整个数据集进行处理，通常会将数据集划分成若干个批量batches。比如：MNIST中128的小批量样本：

batch = train_images[:128]

生活中遇到的数据张量

向量型数据vector data--2维张量，形状(samples，features)
时间序列数据或序列型数据--3维张量，形状（samples，timesteps, features）
图片--4维张量，形状(samples, height, width, channels)或者(samples, channels, height, width)
视频--5维张量。形状(samples. frames, height, width, channels) 或者(samples, frames, channels, height, width)

Tensors 操作

所有的计算机程序最终都简化为二进制输入上的二进制操作(AND, OR, NOR 等)，同时，深度学习网络中所有的转换也可以简化为数据张量上的张量操作，如加、乘等。

逐元素操作element-wise operations

relu操作和加法运算是逐元素操作：独立应用于待计算张量中的每个条目。
比如加法运算的for-loop实现：

def naive_add(x, y):
    assert len(x.shape) == 2
    assert x.shape == y.shape
    x = x.copy()
    for i in range(x.shape[0]):
        for j in range(x.shape[1]):
            x[i, j] += y[i, j]
    return x

广播broadcasting

上面实现的naive_add加法运算仅支持两个形状相同的二维张量。如果两个加法运算的张量形状不相同会发生什么？小张量会广播匹配到大张量上。广播由两步组成：

小张量会添加axes广播轴，以匹配大张量的ndim轴维度。
小张量在新添加的轴方向上重复以匹配大张量的形状。

举例来说，张量X形状为(32, 10),张量y形状为(10, ).两个张量相加。首先，添加一个新轴到张量y上，形状变成(1, 10)；然后，在新轴方向上重复y32次，最终张量Y形状为(32,10)，X、Y形状相同，可以进行加法运算。
但实际过程中并不会创建新的二维张量，影响计算效率。

def naive_add_matrix_and_vector(x, y):
    assert len(x.shape) == 2
    assert len(y.shape) == 1
    assert x.shape[1] == y.shape[0]
    x = x.copy()
    for i in range(x.shape[0]):
        for j in range(x.shape[1]):
            x[i, j] += y[j]
    return x

张量点积运算 Dot

dot点积操作最常用、最有用的张量操作。与逐元素操作相反，点积整合输入张量的所有条目。

def naive_vector_dot(x, y):
    assert len(x.shape) == 1
    assert len(y.shape) == 1
    assert x.shape[0] == y.shape[0]
    z = 0.
    for i in range(x.shape[0]):
        z += x[i] * y[i]
    return z

tensor reshaping

reshape意味着重新排列张量tensor的行和列以满足特定的形状。Reshape之后的tensor与初始tensor包含的系数数目相同。

>>> x = np.array([[0., 1.],
[2., 3.],
[4., 5.]])
>>> print(x.shape)
(3, 2)
>>> x = x.reshape((6, 1))
>>> x
array([[ 0.],
[ 1.],
[ 2.],
[ 3.],
[ 4.],
[ 5.]])

基于梯度的优化算法

神经网络层对输入进行的数学转换为：
$output = relu(dot(W, input) + b)$
张量 $W$ 和张量 $b$ 是网络层的参数，被称为网络层的权重系数或者可训练参数。这些权重系数包含着网络从训练数据中学到的信息。
起始这些权重参数用小的随机数赋值(称为随机初始化)。随后，基于反馈信号逐渐调整权重系数。调整过程称为训练过程。
训练过程通常需要反复进行：

获得训练数据X，y的一个batch 批量；
前向传播得到批量X上的预测值y_pred;
计算当前批量下的损失值：计算y_pred和y之间的差异度；
在损失函数减小的方向上更新权重系数。

随机梯度下降

一个可微分函数，理论上能够找到它的最小值：最小值点导数为0，所以需要找到所有导数为0的点，然后相互比较找到最小值。
神经网络中，意味着找到一组权重值，使损失函数最小。
mini-batch SGD可以描述为以下四步：

获得训练数据X，y的一个batch 批量；
前向传播得到批量X上的预测值y_pred;
计算当前批量下的损失值：计算y_pred和y之间的差异度；
沿着梯度反方向移动权重系数--例如： $W -= step * gradient$ ,损失函数也因此减小。
随机是指每个小批量batch是随机在数据中挑选的。
小批量随机梯度下降的一种极端情况是随机梯度下降算法---全部数据形成一个批量，计算结果更准确，但效率比较低。

小结

学习指在训练数据上找到一组权重值使得损失函数最小；
学习过程：在小批量数据上计算损失函数对应权重系数的梯度值；之后权重系数沿着梯度的反方向移动；
学习过程的可能性是基于神经网络是一系列张量操作，因此能够使用导数的链式法则计算损失函数对应权重系数的梯度值；
两个重要的概念：损失函数和优化方法（需要在数据送到网络之前定义）；
损失函数：在训练过程中最小化的函数，可以用来评估模型的好坏(越小越好，最小为0)；
优化方法：计算梯度的具体方法，之后更新权重系数；比如有：RMSProp、SGD、Momentum等等。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 196,099评论 5赞 462
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 82,473评论 2赞 373
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 143,229评论 0赞 325
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,570评论 1赞 267
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 61,427评论 5赞 358
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,335评论 1赞 273
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,737评论 3赞 386
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,392评论 0赞 254
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,693评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,730评论 2赞 312
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,512评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,349评论 3赞 314
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,750评论 3赞 299
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,017评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,290评论 1赞 251
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,706评论 2赞 342
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,904评论 2赞 335