概率论入门之《统计机器学习导论》阅读笔记(第一,二章)

第一章 统计机器学习

第一章主要介绍了机器学习的分类:监督学习,非监督学习,强化学习。然后介绍了监督学习的三大主要任务:回归,分类,排序,以及非监督学习的聚类。最后稍稍介绍了一下机器学习中的其它技术:集成学习,张量学习,在线学习,迁移学习,度量学习。

当然这些与概率论关系不大,因此笔者在此略过。下面着重记录第二章的阅读笔记。

第二章 随机变量与概率分布

2.1 数学基础

image
image
image
image

以上是关系事件的运算法则,第一幅图相信读者没有问题,第二幅图两个分配率光看公式很符合直觉,但是要证明的话则需要用到给出的韦恩图,先后看公式两边的式子,在韦恩图中找到对应的区域,很快发现它们确实是相同的,因此这两个分配率得证。

第三幅图德摩根率同样光看公式,很符合直觉。但是证明依旧需要韦恩图,先后看公式两边的式子,在韦恩图中找到对应的区域,很快发现它们确实是相同的,因此这两个公式得证。

2.2 概率的性质

概率描述一个事件发生的可能性,事件A的概率记为Pr(A)。下面介绍概率的三个性质。

  • 非负性:0≤Pr(A)≤1
  • 归一性:对于整个样本空间 \Omega,有Pr(\Omega)=1
  • 可加性:Pr(A\bigcup B)=Pr(A)+Pr(B)-Pr(A\bigcap B)以及其推论
  1. 首先,一个事件的概率毫无疑问,肯定是大于等于0,小于等于1的,这个非负性应该无需证明
  2. 而后,所有可能的事件的概率之和等于1,这点非常符合直觉,也不给出证明
  3. 最后,对于可加性,笔者一开始看到这个公式就很懵,为什么后面要接一个-Pr(A\bigcap B),很不能理解。实际上,我们可以用韦恩图来证明这个性质。
image

可以看到Pr(A\bigcup B)的范围是两个圆共同的区域之和,而Pr(A)+Pr(B)中重复加了中间的区域Pr(A\bigcap B),因为A事件与B事件是有重叠的部分的,因此需要减去Pr(A\bigcap B),因此可加性得证。用数学形式来证明的话,则是
Pr(A\bigcup B)
=Pr(A-B)+Pr(B-A)+Pr(A\bigcap B)
=Pr(A)-Pr(A\bigcap B)+Pr(B)-Pr(A\bigcap B)+Pr(A\bigcap B)
=Pr(A)+Pr(B)-Pr(A\bigcap B)

2.3 随机变量与概率分布

  • 对于随机变量的定义,书上的描述是,若一个变量每一次的实现都对应一个概率,那么该变量称为随机变量。
  • 概率分布是描述一个随机变量的任意实现值与概率的对应关系的函数。

2.3.1 离散型随机变量

下面分情况讨论,若一个随机变量是可数集的元素,则该变量为离散型随机变量有限。注意,可数集不一定都是有限的,也可以是无限的,如所有自然数的集合。

每一个离散型概率分布x的值的概率可表示为Pr(x)=f(x)

这里笔者看了一会,若有所悟。这里x是一个值,f(x)是出现x这个值对应的概率,这里的f就是概率分布,是x这个值与其出现概率的一一映射函数。

f(x)为概率分布函数,f(x)满足:
\forall x,f(x)≥0,\sum_xf(x)=1

2.3.2 连续性随机变量

若随机变量可取连续的值,即为连续性随机变量,所谓连续,如1到2,如果是离散的,即两个值,1和2.但如果是连续的,中间还有无数个数,1.1,1.1111,1.2之类,此为连续。

连续性随机变量x取值为[a,b]的概率可表示为
Pr(a≤x≤b)=\int_a^bf(x)dx
f(x)为概率密度函数,f(x)满足:
\forall x,f(x)≥0,\int f(x)dx=1
这里读者可能稍微有一点困惑,概率与积分有啥关系。其实,对于离散型随机变量,求x在某范围的概率确实是直接求和,这很符合直觉。但是在连续型随机变量里同样如此,因为积分就是求和丫,对[a,b]的每个值都取f(x)并求和,这就是x落在[a,b]的概率

同时,根据上述式子,连续型随机变量x的值恰为b的概率为0:
Pr(b\leqq x \leqq b)=\int_b^b f(x)dx=0

这也就是不可能事件的定义

下面介绍累计分布函数F,连续型随机变量x的值小于或等于X的概率为
F(X)=Pr(x\leqq X)=\int_\infty ^X f(t)dt

F满足以下性质:

  • 单调递增:若x<x',则F(x)$$\leqq$$F(x')

  • 左极限:
    {\lim_{x \to -\infty}}F(x)=0

  • 右极限:
    {\lim_{x \to +\infty}}F(x)=1

以上三个性质都很好理解

  • 因为f(x)≥0,因此F(x)x每增加一点,都会带来一点概率f(x)的增加。
  • x-\infty时,总的概率自然为0
  • x\infty时,总的概率自然为1

最后累积分布函数的导数若存在,则为该连续型随便变量对应的概率密度函数:
F'(x)=f(x)

这一开始笔者也没想通,但后来发现这不就是累积分布函数的定义嘛,累积分布函数把每一个点的f(x)加了起来,那求导得到的就是构成累积分布函数的每一个微小的值f(x),因此得证

另一种证明思路则是:这实际上是高树中的变上限函数嘛。至于变上限函数的求导大家都学过,就是将上限代入f(t),并对上限求导

2.4 概率分布的性质

2.4.1 期望、中位数和众数

离散型:E[x]=\sum_xxf(x)
连续型:E[x]=\int xf(x)dx

类似的,关于x的函数 \xi 的期望定义:
离散型:E[\xi(x)]=\sum_x \xi(x) f(x)
连续型:E[\xi(x)]=\int \xi(x) f(x)dx

所谓期望,就是以f(x)为权的加权平均。如果这样理解,那上述的两组公式应该可以很快搞懂,毕竟很符合直觉。

对于常数c,期望算符E满足以下性质:
E[c]=c,E[x+c]=E[x]+c,E[cx]=cE[x]

众数指的是f(x)最大值对应的那个x,中位数满足以下式子:
Pr(x\leqq b)=0.5

2.4.2 方差与标准差

尽管期望是一个很有用的刻画概率分布特征的数据,但不同的概率分布的期望可能相同。因此,引入数据方差来表示概率分布的范围。
V[x]=E[(x-E[x])^2]
在实际应用中,上式展开为
V[x]=E[x^2]-(E[x])^2

下面对展开式的形式进行证明:
V[x]
=E[(x-E[x])^2]
=E[x^2-2E[x]x+(E[x])^2]
=E[x^2]-2(E[x])^2+(E[x])^2
=E[x^2]-(E[x])^2

对于常数c,方差算符V满足下列性质:
V[c]=0,V[x+c]=V[x],V[cx]=c^2V[x]

上述三个性质的证明很简单,就不在此证明了

方差的平方根称为标准差,记作D[x]
D[x]=\sqrt{V[x]}

通常,方差和标准差也分别记作 \sigma^2\sigma

2.4.3 偏度、峰度和矩

在概率统计中,除了期望和方差,诸如偏度和峰度等高次数据也很常用。偏度和峰度分别表示概率分布的不对称性与尖锐性,有如下定义:
偏度:\frac{E[(x-E[x])^3]}{(D[x])^3}
峰度:\frac{E[(x-E[x])^4]}{(D[x])^4}-3

  • 分母中的(D[x])^3(D[x])^4是为了归一化,峰度定义中的-3是为了使正态分布的峰度为0。
  • 若偏度大于0,则右尾长于左尾;当偏度小于0,左尾长于右尾。若偏度为0,则分布完美对称。
  • 若峰度大于0,则概率分布比正态分布更尖锐;若峰度小于0,则概率分布比正态分布更钝。

上述讨论意味着数据
\nu_k=E[(x-E[x])^k]
对于描述概率分布的特征有重要作用。称 \nu_k 为k阶中心矩。且称
\mu_k=E[x^k]
为k阶原点矩。

若期望、方差、偏度和峰度都已确定,那么概率分布会收到一些约束。但作为约束,如果所有阶的矩都确定的话,那么概率分布就唯一确定了。矩量母函数用系统化的方式表示所有阶的矩。
M_x(t)=E[e^{tx}]=\begin{cases} \sum_x e^{tx}f(x),\,\ (离散型)\\ \int e^{tx}f(x)dx,\,\ (连续型)\\ \end{cases}
当t等于0时,矩量母函数的k阶导数为k阶原点矩:
M_x^{(k)}(0)=\mu_k

下面对当t等于0时,矩量母函数的k阶导数为k阶原点矩进行证明:对e^{tx}进行泰勒展开
e^{tx}=1+(tx)+\frac{(tx)^2}{2!}+\frac{(tx)^3}{3!}+...
等式两边计算期望,得
E[e^{tx}]=1+t\mu_1+t^2\frac{\mu_2}{2!}+t^3\frac{\mu_3}{3!}
两边各自求导,得
M_x'(t)=\mu_1+\mu_2t+\frac{\mu_3}{2!}t^2+\frac{\mu_4}{3!}t^3+...
M_x''(t)=\mu_2+\mu_3t+\frac{\mu4}{2!}t^2+\frac{\mu_5}{3!}t^3+...
......
M_x^{(k)}(t)=\mu_k+\mu_{k+1}t+\frac{\mu_{k+2}}{2!}t^2+\frac{\mu_{k+3}}{3!}t^3+...
因此,当t为0时,M_k^{(k)}(t)=\mu_k

2.5 随机变量的变换

若随机变量x可变换为
r=ax+b
那么r的期望和方差为
E[r]=aE[x]+b和V[r]=a^2V[x]
令a=\frac{1}{D[x]},b=-\frac{E[x]}{D[x]},可得
z=\frac{x}{D[x]}-\frac{E[x]}{D[x]}=\frac{x-E[x]}{D[x]}
可知z的期望为0,方差为1。这种从x到z的变换称为标准化。

笔者在月读上面的式子时感觉没问题,既然x减了E[x],它的期望自然为0,除了D[x],方差自然为1,这很符合直觉,但是我不知道为什么会这样,下面给出证明:
E[z]=\frac{E[x]-E[x]}{D[x]}=0,期望得证
V[z]=E[z^2]-(E[z])^2
由以上证明E[z]=0,得
V[z]=E[z^2]
=E[\frac{x^2-2E[x]x+(E[x])^2}{(D[x])^2}]
=\frac{E[x^2]-2E([x])^2+(E[x])^2}{(D[x])^2}
=\frac{E[x^2]-(E[x])^2}{(D[x])^2}=\frac{(D[x])^2}{(D[x])^2}=1
因此上式得证

假设有随机变量x,它的概率密度函数f(x)定义在\chi上,x可由变换\xi得到
x=\xi(r)
然而x的概率密度函数不是f(\xi(r))这么简单,因f(\xi(r))的积分通常不为1。例如,一个人的身高x(cm),换算为r(m),那f(\xi(r))需要除以100后,它的积分才为1。

因此考虑更一般的情况,若雅可比量\frac{dx}{dr}不为0,那么通过乘以雅可比量的绝对值可以调整比例
g(r)=f(\xi(r))|\frac{dx}{dr}|
对任意\frac{dx}{dr}\neq0的变换x=\xi(r),g(r)的积分为1。

因此g(r)=\frac{1}{|a|}f(\frac{r-b}{a})

下面对上式进行证明:
事实上,对上式进行积分更能看出其变化:
令g为x的概率密度函数
\int g(x)dx
将x=\xi(r)代入
=\int f(\xi(r))|\frac{dx}{dr}|dr
因此上式得证

  • 下面给大家介绍一下期望和方差的变换在深度学习中的应用。
  • 事实上,随机变量的变换在图像预处理中很常用,经常用来对图像的RGB值进行归一化,以便后续对数据进行运算时保持梯度的平稳,下面给出参考代码
import paddle
import paddle.vision.transforms as transforms
from paddle.io import DataLoader
import matplotlib.pyplot as plt
import numpy as np
dataset=paddle.vision.datasets.Cifar10(mode="train",transform=transforms.Compose([transforms.Transpose((2,0,1)),
                                                                                  transforms.Normalize(0., 255.)]))
                                                    #此处对图像进行归一化,先减去0.,再除以255.,便可将图像的RGB值缩小至0~1
data_set=paddle.zeros([50000,3,32,32])
for i in range(len(dataset)):
    data,label=dataset[I]
    data=paddle.to_tensor(np.array(data),dtype="float32")
    data_set[i,:,:,:]=data
print(data_set.shape)
print(data_set[0])
def show_imgs(imgs):
    #imgs是一个列表,列表里是多个tensor对象
    #定义总的方框的大小
    plt.figure(figsize=(3*len(imgs),3), dpi=80)
    for i in range(len(imgs)):
        #定义小方框
        plt.subplot(1, len(imgs), i + 1)
        #matplotlib库只能识别numpy类型的数据,tensor无法识别
        imgs[i]=imgs[i].numpy()
        #展示取出的数据
        plt.imshow(imgs[i][0])
        #设置坐标轴
        plt.xticks([])
        plt.yticks([])
show_imgs([data_set[0],data_set[1],data_set[2]])
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,921评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,635评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,393评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,836评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,833评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,685评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,043评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,694评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,671评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,670评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,779评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,424评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,027评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,984评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,214评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,108评论 2 351
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,517评论 2 343

推荐阅读更多精彩内容