AI发展迅速,特别是NLP,一会是Bert,一会是GPT-2,热火朝天。禁不住,我几个月前也想重新好好学习一下深度学习,并且用它做点东西。前几天,看《哈佛幸福课》的时候就说了,想做什么事情,不要拖着说等个什么契机再做,要立刻行动,行为改变态度。
于是,上个周末,我终于计划好学习计划,重新开始学习。学习深度学习,当然从吴恩达的《deep learning》开始,原理讲得很透彻也很易懂,适合我这种没什么基础的。下面,是我这个周末学习笔记。
一、神经网络和深度学习(第一周)
1、Relu全称是修正性单元,它的函数示例大概如下图:
2、一个简单的神经网络
例如:由房子大小、房间数量、邮政编码、富裕程度这个四个输入x,来决定最终的价格,也就是y。
注意:上面的圆圈,在神经网络中叫做隐藏单元。其中上面的x1,x2,x3,x4代表输入层,也就是4个特征。
最终,可以参考下图:
3、神经网络可以处理结构化数据,也可以处理非结构化数据
结构化数据:一般是我们数据库中的数据,例如Mysql中表的数据
非结构化数据:音频数据、图片数据、文本数据等等
4、神经网络分类
(1)基本的神经网络
(2)CNN也就是卷积神经网络,专门用来做图像识别等
(3)RNN循环神经网络,它主要用来处理一维的时间序列数据,例如音频数据、文本数据。
5、神经网络为什么突然这么厉害了?
参考上图:
1、当在数据量小的时候,也许一些机器学习算法,因为设计的更好,可能会被深度学习表现更好,所以小数据集时,并不能确定算法优劣。
2、而只有当数据量变得很大时,大型的神经网络才表现出更优异的结果。
3、也就是说,推动神经网络发展,不仅仅是技术的发展,网络规模的发展,更是因为有了海量的数据,注意了,这个数据还需要是标签化的数据。
6、神经网络发展的三要素
数据
计算力
算法
其中,算法的发展,有一个例子,就是sigmoid到relu,就会使梯度下降运行得更快,因为sigmoid到后面梯度越来越接近0了,如下:
二、神经网络基础(第二周)
1、神经网络拥有一个前向传播,然后又会有一个后向传播
2、二分分类符号
将m张图片,也就是使用 nx * m 代表(nx, m)矩阵,用python表达就是X.shape = (nx, m),nx代表行,m代表列。最终,变成Y矩阵,Y.shape = (1, m),代表1行m列,逻辑符号看下面:
原来,矩阵的符号是下面个:
代表 x 是 nx元素个矩阵,它是一维矩阵。
X代表是(nx, m)矩阵,它是二维矩阵。
3、怎么使用矩阵代表一张图片
一张64x64像素的RGB图片,因为它是3个通道,所以可以表示成 64x64x3,最终将其压缩到一列中,如下:
4、一个logistic回归
(1)使用w和b参数学习
(2)最终使用sigmoid函数转换为0和1
5、损失函数、成本函数
损失函数:预测的值与真实的值误差
成本函数:则是求所有的预测值和真实值误差的平均值
6、梯度下降
在梯度下降的时候,我们其实就是在找凸函数的最优解。
例如,上面的图形中底部那一点。刚开始,我们不管初始化多少,我们都会使用梯度下降,不停逼近那个最优解。
其中,在求最优解的时候,我们会使用导数更新w和b值,还有一个参数就是α,它代表学习率,它越大,学习的越快,但是最后精度可能不好。而求导的过程,其实就是求曲线的斜率。
7、直线求导
对于直线,斜率就是导数,一般导数这两种写法:
为啥说直线斜率就是导数,参考下面:
8、更多复杂的导数例子
注意:导数都是求函数的斜率,直线的斜率是一样的,但是其它函数,例如loga等,在不同的地方,曲线斜率是不一样的。
9、计算图流程
需要知道的是:
(1) 前向传播是计算图从左向右计算
(2)后向传播是计算图从右向左计算导数的计算
(3)python编程中,da代表损失函数对a求导,dv代表损失函数都v求导
10、logistic的梯度下降(在1个样本中的推导)
最主要,先求出dw1、dw2、db这些导数,然使用它们更新w1、w2、b,这就是梯度下降,更新公式如下:
其中α是学习率。
11、多个样本的logistic回归
其中sigmoid的函数为:
这一波推导比较复杂点,可以自己试着推导一遍。
12、将代码实现为向量化,可以在python中极大的提升速度,使用Numpy实现
numpy中有很多内置函数,当要计算时,尽量寻找numpy中内置函数,不要显示使用for循环
13、python中numpy向量编程广播(Broadcasting)基本原则:
还有更多的只是,可以查阅numpy的文档,输入broadcasting查阅。
14、python使用numpy时,需要注意的地方
不要使用 a = np.random.randn(5)这样方法,使用 a = np.random.randn((5, 1))创建列向量,或者使用
a = np.random.randn((1, 5))创建横向量。
如果不确定shape时,使用assert(a.shape = (5, 1))来确认。
15、sigmoid函数实现
sigmoid方程如下:
代码实现如下:
def sigmoid(z):
"""
Compute the sigmoid of z
Arguments:
z -- A scalar or numpy array of any size.
Return:
s -- sigmoid(z)
"""
s = 1 / (1 + np.exp(-z))
return s
需要注意,np.exp()是返回e的幂次方
三、作业实现
1、通过完成作业,我知道了整个神经网络的构建流程。
那是如何构建这个神经网络的呢?
(1)预处理数据。
读取图片,并将图片处理成向量化;读取文本。并且,将训练的数据和测试的数据放在不同的变量中。
(2)初始化数据。
这一步,主要初始化w(权重)和b的值,其中w的维度是与图片相关的,等于宽度x高度x3
(3)构建模型
构建模型中,首先是计算出前向传播,然后计算后向传播,计算出梯度,然后进行梯度下降,更新w和b的值。经过多个循环之后,它就会越加接近那个最优解。
(4)预测方法
预测方法其实就是拿我们训练好的w和b的值,然后进行前向传播计算出对应的y值,也就是我们的预测值。
2、在完成作业的时候,我也碰到了问题
(1)不知道什么时候使用np.dot还是直接A*B
例如下面公式:
我在计算成本函数的时候,报错了。这个问题,我的解决方法是通过打印这些变量观察得到。
但是,其实可以看公式就知道,例如A的计算,没有标注是第几个只是大写X和wT相乘,这个明显是矩阵的点积。而J的成本函数计算时,是它们内部每一个y(i)和log(a(i))相乘,其中y(i)代表第i个y值,所以是矩阵的乘法,也就是每个元素相乘。
总结
整个知识梳理了一遍,比我以前只知道实现却不知其所以然好多了。所以,我更憧憬后面的课程,争取一个月把它学完。