深度学习数学基础(三)之简单数学

以下有部分公式,如果无法显示,请访问原文链接

从本文开始,之后的三四篇我们都将沐浴在数学的海洋里,拼命地扑腾,这个系列我会尽力以通俗易懂的方式来讲述这些数学知识。

1 函数

1.1 一次函数

在数学函数中最基本、最重要的就是一次函数。也就是函数之基础、根本。它在神经网络的世界里也同样重要。

1.1.1 一元一次函数

这个函数可以用下面的式表示。a被称为斜率(用来控制直线的方向),b被称为截距(用来控制直线和原点的偏移)
y=ax+b(a、b为常数,a\neq 0)

当x、y两个变量满足上述公式时,就称为变量y和变量x是一次函数关系

有两个变量xy,如果对每个x都有唯一确定的y与它对应,则称yx的函数,用 y=f(x) 表示。此时,称x为自变量,y为因变量。

一次函数的图像是直线,如下图的直线所示。


示例:一次函数y=2x+1的图像如下图所示,截距为 1,斜率为 2。

1.1.2 多元一次函数

上面我们说的y=ax+b中有一个变量x,我们称为一元,如果有多个变量,我们就称为是多元的,比如下面的式子。(有几个变量就是几元的,也可以理解为维度)
y=ax_1+bx_2+...+c(a、b、c为常数,a\neq 0,b\neq 0)

当多个变量满足上述公式时,也称为变量y与变量是一次函数关系

就像我们之前说的神经元的加权输入z就可以表示为一次函数关系。如果把作为参数的权重w_1、w_2、...、w_n与偏置b看作常数,那么加权输入zh和w_1、w_2、...、w_n就是一次函数关系。
z=w_1x_1+w_2x_2+...+w_nx_n+b

1.2 二次函数

1.2.1 一元二次函数

刚刚我们接触了一次函数,下面说说二次函数。二次函数很重要,像我们经常使用的代价函数平方误差就是二次函数。二次函数由下面的式表示。
y=ax^2+bx+c(a、b、c为常数,a\neq 0)

二次函数的图像是抛物线,如下图所示。我们会发现抛物线的凹凸(开口朝向)是通过上方式子中a的正负来决定的。

  1. a>0时,抛物线向上开口,向下凸起
  2. a<0时,抛物线向下开口,向上凸起。

所以当a>0时该函数的y存在最小值。(该性质是后面讲的最小二乘法的基础)

示例:二次函数y=(x-1)^2+2的图像如右图所示。从图像中可以看到,当x=1时,函数取得最小值y=2

1.2.2 多元二次函数

在我们实际的神经网络中需要处理更多变量的二次函数,这些二次函数统称多元二次函数,学会了一元二次函数,那么多元二次函数就不会太难了,下面我们以一个二元二次函数进行举例。

就像我们使用的代价函数平方误差c就是多元二次函数:
C=(x_1-t_1)^2

1.3 单位阶跃函数

之前,我们已经接触过它了,还记得吗,作为生物界神经元的激活函数。下面我们再说一遍吧。

单位阶跃函数,在原点处不连续,也就是在原点处不可导,由于这两个性质,所以单位阶跃函数不能成为主要的激活函数。

u(x)=\left\\{ \begin{matrix} 0\quad (x<0) \\\\ 1\quad (x\ge 0) \end{matrix} \right\\}

单位阶跃函数的图像如下:

1.4 指数函数

什么是指数函数呢?我们之前讲了一次函数和二次函数,其实只要把变量放到幂的位置,其实就是指数函数了,具有以下形状的函数称为指数函数,常数a被称为函数的底数
y=a^x(a为正的常数,a\neq 1)

指数函数的图像是类似于撇的一种样式,如下所示


上面说到底数,就不得不说自然常数e,又叫纳皮尔数或欧拉数,它和派\pi类似,是一个无限不循环小数,它的值如下
e\approx 2.71828...

1.4.1 sigmoid函数

上面说到自然常数e,那么就不得不提到大名鼎鼎的自然指数函数e^x,它在数学界有自己的标识expexp(x)

而我们这里所要讲的是包含自然指数函数的复合函数sigmoid函数,它是神经网络中很具有代表性的激活函数。它的公式如下
\sigma (x)=\frac { 1 }{ 1+{ e }^{ -x } } =\frac { 1 }{ 1+exp(-x) }

通过下方的图像,我们可以看到,这个函数是光滑的,这就代表着这个函数处处可导,函数的取值在(0,1)区间内,那么这个函数值就可以用概率来解释

1.5 正态分布的概率密度函数

在计算机实际确定神经网络时,我们需要首先给权重和偏置设定初始值,这样神经网络才能进行计算。而这个初始值怎么取呢,这个时候我们就会用到一个非常有用的工具,叫做正态分布,这里就不长篇大论的解释啥是正态分布了,它也没什么高大上的地方,就是概率分布中的一种分布方式,但是这个分布方式是及其复合人类和自然界的,有兴趣的朋友可以去深入了解下。在这里只说一下,我们在给神经网络分配权重和偏置时分配一个服从正态分布的随机数,会比较容易取得好的结果。

正态分布是服从下面的概率密度函数的概率分布。公式如下
f\left( x \right) =\frac { 1 }{ \sqrt { 2\pi \sigma } } { e }^{ -\frac { { (x-\mu ) }^{ 2 } }{ 2{ \sigma }^{ 2 } } }

  1. 常数\mu:期望值(平均值)
  2. \sigma:标注差

它的图像如下,由于形状像教堂的钟,所以被称为叫钟形曲线

示例:试作出期望值\mu为0、标准差\sigma为1 的正态分布的概率密度函数的图像。
f\left( x \right)=\frac { 1 }{ \sqrt { 2\pi } } e^{ -\frac { x^{ 2 } }{ 2 } }

2 数列

2.1 数列的含义

数列就是数的序列,比如下面就是偶数列的数列
2,4,6,8,...

数列中的每一个数都被称为,排在第一位的项叫做首项,排在第二位的项叫做第2项,以此类推,排在第n位的项叫做第n项(是不是有点废话),神经网络中出现的数列都是有限的数列,这种数列叫做有穷数列,在有穷数列中最后一项称为末项,数列中的数量称为项数,而像上面的偶数列是无穷数列

示例:考察下面的有穷数列的首项,末项以及项数
1,3,5,7,9

这个数列的首项是1,末项是9,项数是5

2.2 数列的通项公式

数列中排在第n项的数通常用a_n表示,这里a是数列的名字,可随意取。当想要表达整个数列时,使用集合的符号来表示,如\left\\{a_n\right\\}

将数列的第n项用一个关于n的式子标书出来,那么这个式子被称为通项公式,比如偶数列的通项公式就是下方的式子
a_n=2n

示例:求以下数列\left\\{b_n\right\\}的通项公式
1,3,5,7,9
通项公式为b_n=2n-1

在神经网络中,神经元的加权输入和输出可以看成数列,比如使用下方的展示方式:

  1. 加权输入:第l层的第j个神经元的加权输入用z_j^l
  2. 输出:第l层的第j个神经元的输出用a_j^l

2.3 数列与递推关系式

除了通项公式外,数列还有另外一种表示方式,就是用相邻的关系式来表示,这种表示法被称为数列的递归定义

一般,如果已知首项a_n以及相邻的两项a\_n、a\_{n+1}的关系式,那么就可以确定这个序列,这个关系式叫递推关系式

示例:已知首项a_1=1以及关系式a\_{n+1}=a\_n+2,可以确定以下数列,这个关系式就是数列的递推关系式。
a\_{1}=1\\\\a\_{2}=a\_{1+1}=a\_{1}+2=1+2=3\\\\a\_{3}=a\_{2+1}=a\_{2}+2=3+2=5\\\\a\_{4}=a\_{3+1}=a\_{3}+2=5+2=7\\\\...\\\\a\_{1}=1,a\_{n+1}=a\_{n}+2

2.4 联立递推关系式

下面我们演示一个问题,这个算法就是神经网络中的误差反向传播中所用到的数列的解题算法联立递推算法

示例:求以下两个地推关系是定义的数列前3项,其中a_1=b_1=1
\begin{cases} a\_{ n+1 }=a\_{ n }+2b\_{ n }+2 \\\\ b\_{n+1}=2a\_{n}+3b\_{n}+1 \end{cases}

解题:
\begin{cases} a\_{ 2 }=a\_{ 1 }+2b\_{ 1 }+2=1+2\times 1=5 \\\\ b\_2=2a\_1+3b\_1+1=2\times 1+3\times 1+1=6 \end{cases}
\begin{cases} a\_{ 3 }=a\_{ 2 }+2b\_{ 2 }+2=5+2\times 6+2=19 \\\\ b\_{ 3 }=2a\_{ 2 }+3b\_{ 2 }+1=2\times 5+3\times 6+1=39 \end{cases}

像这样,将多个数列的递推关系式联合起来组成一组,称为联立递推关系式。在神经网络的世界中,所有神经元的输入和输出在数学上都可以认为是用联立递推式联系起来的。例如,我们来看看之前文章中看过的一个神经元的图片

在箭头前端标记的是权重,神经元的圆圈中标记的是神经单元的输出变量。于是,如果以a(z)为激活函数,b_1^3b_2^3为第3层各个神经元的偏置,那么以下关系式成立:
{ a }\_{ 1 }^{ 3 }=a({ w }\_{ 11 }^{ 3 }{ a }\_{ 1 }^{ 2 }+{ w }\_{ 12 }^{ 3 }{ a }\_{ 2 }^{ 2 }+{ w }\_{ 13 }^{ 3 }{ a }\_{ 3 }^{ 2 }+{ b }\_{ 1 }^{ 3 })
{ a }\_{ 2 }^{ 3 }=a({ w }\_{ 21 }^{ 3 }{ a }\_{ 1 }^{ 2 }+{ w }\_{ 22 }^{ 3 }{ a }\_{ 2 }^{ 2 }+{ w }\_{ 23 }^{ 3 }{ a }\_{ 3 }^{ 2 }+{ b }\_{ 2 }^{ 3 })

根据这些关系式,第3层的输出a_1^3a_2^3由第2层的输出a_1^2a_2^2a_3^2决定。也就是说,第2层的输出与第3层的输出由联立递推关系式联系起来。我们之后学的误差反向传播就是将这种观点应用在神经网络中。

为什么要将联立递推应用在神经网络中呢?

其实是因为对比计算冗长的偏导关系式,计算机更加擅长计算递推关系。

评论请转至原文链接
本文来自纳兰小筑,本文不予回复,评论请追溯原文

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 196,099评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,473评论 2 373
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 143,229评论 0 325
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,570评论 1 267
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,427评论 5 358
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,335评论 1 273
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,737评论 3 386
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,392评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,693评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,730评论 2 312
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,512评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,349评论 3 314
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,750评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,017评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,290评论 1 251
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,706评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,904评论 2 335

推荐阅读更多精彩内容