干掉公式 —— numpy 就该这么学

机器学习和数据分析变得越来越重要，但在学习和实践过程中，常常因为不知道怎么用程序实现各种数学公式而感到苦恼，今天我们从数学公式的角度上了解下，用 python 实现的方式方法。

友情提示：不要被公式吓到，它们都是纸老虎

关于 Numpy

NumPy 是使用 Python 进行科学计算的基础软件包。除其他外，它包括：

功能强大的N维数组对象
精密广播功能函数
集成 C/C+和Fortran 代码的工具
强大的线性代数、傅立叶变换和随机数功能

机器学习和数据分析，numpy 是最常用的科学计算库，可以用极简的、符合思维习惯的方式完成代码实现，为学习和实践提供了很大的便利

环境准备

创建虚拟环境（可省略），安装 numpy 包：


pip install numpy

复制代码

测试安装：


>>> import numpy

>>>

复制代码

在下面实践中，默认将 numpy 引用为 np：


import numpy as np

...

复制代码

基础运算

编程语言大多数运算都是针对简单数值的，复杂运算是通过相应的数据结构结合程序逻辑计算的。numpy 虽然是针对复杂数据结构（例如矩阵）构造的，但它提供了和简单数值计算一样方便的操作。

幂运算

幂运算的运算符为 ** ，即两个星号（一个星号表示乘），例如计算 x 的平方：x**2，x 的立方：x**3，等等

开方，相当于计算 1/2 次方，即 x**(1/2) 或者 x**0.5，因为常用 numpy 提供了便捷函数，sqrt，例如对数字 x 开平方，就是 np.sqrt(x).

实际上平方运算也有便捷方法：np.square

绝对值

绝对值表示一个数轴上的值距原点的距离，表示为 |x|，numpy 提供便捷方法 abs 来计算，例如 np.abs(x)，就为 x 的绝对值

理解向量和矩阵

线性代数是机器学习和数据分析的基础数学之一，而向量和矩阵式又是线性代数的基础概念，所以理解向量和矩阵非常重要。

向量

一般数据被分为标量和向量，标量比较容易理解，即数轴上的一个数值

向量直观的认识是一组数值，可以理解为一维数组，但是为啥常见定义表示：具有方向的数值，方向指的是啥？这个问题困扰了我很多年（苦笑）。实际是因为在开始学习线性代数时，直接从公式定理开始，而没有了解它的原理和来源。

向量的方向指得是，向量所在坐标系的原点指向该向量在坐标系中表示的点的方向，例如在平面直角坐标系中，向量 [1,2] 表示 x 轴为 1，y 轴为 2 的一个点，从原点，即 [0,0] 点指向这个点的方向，就是这个向量的方向，扩展的三维坐标系，再到 n 为坐标系（当然超过三位人类就比较难以理解了），向量元素的个数表示向量属于几维坐标系，但无论多少维，都可以画出原点指向向量点的方向。

因为线性代数研究的是向量及向量组（矩阵）的纯数学计算，所以丢弃了坐标系的概念，只保留了向量的样子，所以造成了向量难以理解的现象。

简单说，向量就是一个数值的数组。

矩阵

理解了向量，矩阵理解起来就容易了，相当于一组向量，即坐标系中的多个点的集合，矩阵运算，就相当于多个向量的运算或变换。

可能这里比较绕或冗余，先解释到这里，后面的文章中会进一步解释向量和矩阵的实际意义

初始化

numpy 中，提供了多种产生向量和矩阵的方法，例如用 array 可以将 python 数组初始化为 numpy 矩阵：


m = np.array([(1,2,3),(2,3,4),(3,4,5)])

复制代码

就可以创建一个向量维度为 3，个数为 3 的矩阵

基本运算

numpy 特别擅长处理向量和矩阵的运算，例如乘法，即给向量中的每个数值乘以乘数，之间写代码的话，可以遍历向量，为每个值乘以乘数。

用 numpy 就简单很多：x * 2，就像做标量运算一样，感觉向量同一个数值一样。

加法 x+2，
减法 x-2
处罚 x/2

矩阵幂运算

向量、矩阵既然可以看成一个数，幂运算就很容易理解了，例如矩阵

[图片上传中...(image-10326f-1609592808949-12)]

m 平方就可以写成 m**2, 结果为：

[图片上传中...(image-b83e92-1609592808949-11)]

矩阵点积

不同维度的矩阵可以做乘法操作，但不是一般的乘法操作，操作被称为点积，为了用 numpy 表示，需要用 dot 函数，例如矩阵 m 和 n

[图片上传中...(image-64cf07-1609592808949-10)]

代码为 m.dot(n)，就会得到如下结果：

[图片上传中...(image-afc27e-1609592808949-9)]

求和与连乘

统计学公式中，求和运算很常见，例如对矩阵求和：

[图片上传中...(image-7b4aaf-1609592808949-8)]

表示对矩阵 m 中所有元素进行求和，nunpy 通过 sum 完成计算：

m.sum()

连乘和求和类似，将矩阵中所有元素做乘积运算:

[图片上传中...(image-c702ab-1609592808949-7)]

numpy 通过 prod 完成计算，如矩阵 m 的连乘为 m.prod()

实践

了解了上面的各种基础运算后，做些实践

计算均值

向量均值公式为：

[图片上传中...(image-3e9e7c-1609592808949-6)]

分析公式，其中 n 为向量 x 的元素数量，numpy 的向量，通过 size 获取，后面是向量求和，用 sum 完成，最后代码如下：


(1/x.size)*x.sum()

复制代码

或者


x.sum()/x.size

复制代码

实现 Frobenius 范数

现在来个复杂点的，Frobenius 范数，公式如下:

[图片上传中...(image-e898e-1609592808949-5)]

先不用纠结 Frobenius 公式的意义，我们只看如何用 python 实现，分析公式，可以看到，首先对矩阵的每个元素做平方运算，然后求和，最后对结果进行开方，那么就从里向外写

矩阵元素求和，根据前面所述，写成 m**2，会得到新的矩阵，然后求和，直接可写为：


np.sqrt((m**2).sum())

复制代码

借助 numpy 实现公式，极为简洁。

样本方差

我们在看一个公式：

[图片上传中...(image-173bf9-1609592808949-4)]

其中 [图片上传中...(image-42c2eb-1609592808949-3)]

表示向量 x 的均值，上面计算过，那么套用起来就是：


np.sqrt(((x-(x.sum()/x.size))**2).sum()/(x.size-1))

复制代码

基本依据上面了解的写法可以理解和写出，不过括号有点多，如果不参考公式，估计看不清实现的啥，好在 numpy 将均值运算通过 mean 方法简化了，例如向量 x 的均值，可以写为：np.mean(x)，所以上面的代码可以简化为：


np.sqrt(((x-np.mean(x))**2).sum()/(x.size-1))

复制代码

上面公式实际上是样本标准差公式，对于标准差，numpy 提供了简便方法 std, 直接用

np.std(x) 就可以计算，当然现在我们根据标准差公式：

[图片上传中...(image-a2bcc2-1609592808949-2)]

很容易写出来 numpy 实现，赶紧试试吧。

欧拉距离

前面写模拟疫情扩散时，用到了欧拉距离，当时没有理解好 numpy 公式表达能力，所以计算时分了三步，现在如果要计算两个向量之间的欧拉距离，一行代码就能搞定，先复习下欧拉距离公式，向量 a 与向量 b 的欧拉距离为：

[图片上传中...(image-641a4-1609592808949-1)]

numpy 实现为：


np.sqrt(((a-b)**2).sum())

复制代码

由于欧拉距离应用广泛，所以 numpy 在线性代数模块中实现了，所以了解 numpy 实现数学公式的方法后，可以简化为：


np.linalg.norm(a-b)

复制代码

总结

numpy 是个博大精深的数学计算库，是 python 实现科学计算的基础，今天我们从数学公式的角度，了解了如何转换为 numpy 的代码实现，限于篇幅，虽然仅是 numpy 的冰山一角，但却可以成为理解 numpy 运算原理的思路，在数据分析或者机器学习，或者论文写作过程中，即使不了解 numpy 中简洁的运算，也可以根据数学公式写出代码实现，进而通过实践学习和了解 numpy 就更容易了

参考

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 205,386评论 6赞 479
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,939评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,851评论 0赞 341
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,953评论 1赞 278
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,971评论 5赞 369
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,784评论 1赞 283
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,126评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,765评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,148评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,744评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,858评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,479评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,080评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,053评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,278评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,245评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,590评论 2赞 343