Python编程&数据科学入门 Lesson4

第四课 - NumPy 入门

本课内容：

0. 导入 NumPy 包
1. 创建 NumPy 数组
2. 索引和切片
3. 读取文件
4. 布尔型索引
5. 数组的运算
6. 常用函数举例

NumPy 是 Numerical Python 的简称，是 Python 科学计算的核心包。其强大的科学计算能力在很多高级包中得到应用。比如，在后续课程中的 pandas 就是基于 NumPy 的一种工具包。

numpy主要特点

使用向量化操作以简化数据处理，包括取子集，过滤，和变形等等。
高效的数据总结，排序功能。
numpy数组中的元素只能是同一种数据类型
numpy数组的运算，更简洁且高效

0. 导入 NumPy 包

import numpy as np

1. 创建 NumPy 数组

numpy的一个重要对象(object)是 ndarray，也称 NumPy 数组

ndarray 是 Multidimensional Array的缩写，中文称为多(multi)维(dimensional)数组(array)。
数组可以存储大量数据并在其进行数学运算，我们可以使用数组在一块数据上进行操作从而避免使用循环来操作单个元素。

1-1. 一维数组

value = [1,2,3]
arr1d = np.array(value)
arr1d
输出：array([1, 2, 3])

& type(arr1d) # 查看数据类型
输出：numpy.ndarray

& arr1d.ndim # 查看维度，返回1，说明是一维数组
输出：1

1-2. 二维数组

value = [[1,2,3],[4,5,6]] # 从二维列表中创建二维数组
arr2d = np.array(value)
arr2d
输出：array([[1, 2, 3],
[4, 5, 6]])

二维数组就类似一个矩阵

| 1 2 3 |
| 4 5 6 |

0轴 (axis=0) 是列，也就是垂直方向
1轴 (axis=1) 是行，也就是水平方向
矩阵对于数据分析来说，是一个重要的概念，一般用列来代表观测对象的各种属性、特征，用行来记录每一个观测对象的一组测量数据。

& arr2d.ndim #查看维度，返回2，代表二维数组
输出：2

& arr2d.shape
输出：(2, 3) # 注意，结果存储在一个元组里

使用shape来查看行数以及列数
arr2d是一个两行三列的二维数组

1-3. 其他快速创建数组的函数

一维数组
np.zeros(5) # 创建全0数组
输出：array([ 0., 0., 0., 0., 0.])
np.empty(10) # 创建空数组，其元素的值不一定为0，它返回的是一些未初始化的垃圾值。
输出：array([ -1.72723371e-077, 2.00389882e+000, 1.94100914e-080,
3.90719476e-086, 2.28191497e+232, 4.08955235e-080,
2.55671117e+161, 1.98854918e-081, 3.03467606e-086,
6.95335581e-309])
np.ones(5) # 创建元素都为1的数组
输出：array([ 1., 1., 1., 1., 1.])

np.arange(10)

np.arange 类似于Python中的range函数，是它的数组版
数组元素从0 到 9
输出：array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

np.arange(2, 10, 2)

10以内的偶数构成数组
arange() 中的参数分别是：起始值，终值（不被包含），步长（类似等差数列）
输出：array([2, 4, 6, 8])

np.random.rand(5) # 创建 [0, 1) 之间的随机数

输出：array([ 0.78408467, 0.38615392, 0.20028395, 0.4741344 , 0.8794998 ])

np.random.randint(1, 10, size=8) # 创建指定范围内的随机整数

输出：array([6, 4, 9, 2, 2, 3, 1, 3])

二维数组

np.zeros((2,3)) # 输入的是元组

输出：array([[ 0., 0., 0.],
[ 0., 0., 0.]])

np.empty((3,3))

输出：array([[ 4.94065646e-324, 9.88131292e-324, 1.48219694e-323],
[ 1.97626258e-323, 2.47032823e-323, 2.96439388e-323],
[ 3.45845952e-323, 3.95252517e-323, 4.44659081e-323]])
In [17]:

np.random.rand(3,5)

输出：array([[ 0.61108731, 0.28309232, 0.3224213 , 0.97465818, 0.67250497],
[ 0.42063949, 0.97061055, 0.63820155, 0.53084675, 0.65285927],
[ 0.36935495, 0.4308036 , 0.40956562, 0.42018877, 0.78010878]])

np.random.randint(1, 10, size=(3,5))

输出：array([[9, 5, 7, 9, 4],
[2, 6, 6, 7, 3],
[6, 7, 4, 5, 1]])

2. 索引和切片

选取数组中的元素或者是数据的子集

使用[ ]运算符对数进行切片和索引等操作

2-1. 一维数组

一维数组的索引和切片，与Python列表差不多
arr = np.arange(10) # 创建一个一维的数组
arr
输出：array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
arr[3] # 一维数组的索引
输出：3
arr[3:7] # 一维数组的切片
输出：array([3, 4, 5, 6])

* 数组切片是原始数组的视图，也就是说数据不会被复制，任何修改都会影响到原有的数组上。

arr2 = arr[3:7]
arr2[0] = 13
arr # arr的元素被改变了
输出：array([ 0, 1, 2, 13, 4, 5, 6, 7, 8, 9])

* 如果要对数组的切片进行复制，需要使用`.copy()`方法

arr = np.arange(10)
arr3 = arr[3:7].copy() # 使用.copy()
arr3[0] = 13
arr # arr的元素没有被改变
输出：array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

2-2. 二维数组

mat = np.arange(1,17) # 用一维数组来生成二维数组

mat.shape = (4, 4)

mat

输出：array([[ 1, 2, 3, 4],
[ 5, 6, 7, 8],
[ 9, 10, 11, 12],
[13, 14, 15, 16]])

获取二维数组的某一行
对于二维数组，每个索引对应的是一个一维数组！
mat[0] # 对应第0行
输出：array([1, 2, 3, 4])

* 获取二维数组的行

* mat[起始行:终结行] ：从起始行开始，但不包括终结行
* mat[起始行:] ： 从起始行到最后一行
* mat[: 终结行] ： 从第0行到终结行但不包括终结行

mat[1:3] #等价于mat[[1,2]]

输出：array([[ 5, 6, 7, 8],
[ 9, 10, 11, 12]])

类似于列表切片，查看第二和第三行
ndarray的切片是沿着行方向的
和列表切片一样，第三行是不包括的

* 获取二维数组的行和列

* 查看某一个元素，有两种方式

mat[1][3] # 先获取第一行，再查找第三列
输出：8
mat[1,3] # 用一个逗号来隔开行和列的索引
输出：8

* 索引和切片的混用

方括号第一个参数指定要取的行位置，第二个参数指定要取得列位置，中间使用逗号隔开

mat[0:3, 1] # 取出第0行到第2行，第1列
输出：array([ 2, 6, 10])
mat[2:, 2:]
输出：array([[11, 12],
[15, 16]])

可以同时在行和列同时做切片
取出第1行到最后一行，第2列到第3列

3. 读取文件

wine_data = np.genfromtxt('winequality-red.csv', delimiter=';', skip_header=1)

wine_data

输出：array([[ 7.4 , 0.7 , 0. , ..., 0.56 , 9.4 , 5. ],
[ 7.8 , 0.88 , 0. , ..., 0.68 , 9.8 , 5. ],
[ 7.8 , 0.76 , 0.04 , ..., 0.65 , 9.8 , 5. ],
...,
[ 6.3 , 0.51 , 0.13 , ..., 0.75 , 11. , 6. ],
[ 5.9 , 0.645, 0.12 , ..., 0.71 , 10.2 , 5. ],
[ 6. , 0.31 , 0.47 , ..., 0.66 , 11. , 6. ]])

读取红酒品质数据，原数据以分号进行分隔，并且跳过第一行

数据文件中第一行是字段名，属于字符串类型，而numpy数组的所有元素必须是一致的数据类型，故需要跳过第一行，否则会出错。

wine_data.shape # 查看数组的形状，行和列

输出：(1599, 12)

wine_data.dtype # 查看数组中元素的类型

输出：dtype('float64')

wine = wine_data[:10, [8,10,11]]

取前10行数据中的8，10，11列,分别对应红酒的PH值、酒精度、质量评分这三类属性#

为简单起见，后续将使用这组数据进行分析示例
wine
输出：array([[ 3.51, 9.4 , 5. ],
[ 3.2 , 9.8 , 5. ],
[ 3.26, 9.8 , 5. ],
[ 3.16, 9.8 , 6. ],
[ 3.51, 9.4 , 5. ],
[ 3.51, 9.4 , 5. ],
[ 3.3 , 9.4 , 5. ],
[ 3.39, 10. , 7. ],
[ 3.36, 9.5 , 7. ],
[ 3.35, 10.5 , 5. ]])

4. 布尔型索引

之前的切片索引方法是通过指定行或列的位置来取一个数组的一部分
顾名思义，布尔索引是通过一个布尔型数组来确定所需要的行或者列的位置
当行或列位置对应的布尔索引为True的时候，我们会保留这个行或列。反之，当对应的布尔索引为False的时候，则不选取。

例1：获取评分大于5的红酒数据

wine[:, 2] > 5# 第2列数据代表质量评分

输出：array([False, False, False, True, False, False, False, True, True, False], dtype=bool)

wine[wine[:, 2] > 5]

输出：array([[ 3.16, 9.8 , 6. ],
[ 3.39, 10. , 7. ],
[ 3.36, 9.5 , 7. ]])

例2：获取评分大于5，且酒精度大于等于10的红酒数据

mask = (wine[:,2] > 5) & (wine[:,1] >= 10)

mask

第1列代表酒精度，第2列代表评分
使用布尔运算符 (& , | ) 来组合多个布尔条件
输出：array([False, False, False, False, False, False, False, True, False, False], dtype=bool)

wine[mask]

输出：array([[ 3.39, 10. , 7. ]])

5. 数组的运算

5-1. 数组与单个数之间的运算

mat / 2 # 每个元素都除以2

输出：array([[ 0.5, 1. , 1.5, 2. ],
[ 2.5, 3. , 3.5, 4. ],
[ 4.5, 5. , 5.5, 6. ],
[ 6.5, 7. , 7.5, 8. ]])

mat ** 2 # 每个元素都平方

输出：array([[ 1, 4, 9, 16],
[ 25, 36, 49, 64],
[ 81, 100, 121, 144],
[169, 196, 225, 256]])

(mat + 100) / 100

输出：array([[ 1.01, 1.02, 1.03, 1.04],
[ 1.05, 1.06, 1.07, 1.08],
[ 1.09, 1.1 , 1.11, 1.12],
[ 1.13, 1.14, 1.15, 1.16]])

例：将红酒评分数据转换成百分制，即原评分乘以10

score = wine[:, 2] # 获取评分数据的数组

score
输出：array([ 5., 5., 5., 6., 5., 5., 5., 7., 7., 5.])

score * 10

输出：array([ 50., 50., 50., 60., 50., 50., 50., 70., 70., 50.])

Numpy 数组的任何算数运算，都会将运算运用到元素级别。
这样的矢量化运算是NumPy 数组的优势， Python列表要实现这一操作就需要编写循环。

5-2. 数组与数组之间的运算

两个行列数相符的数列可以进行运算
运算操作将应用到数列中对应的每一个元素

mat + mat # 两个数组相加

输出：array([[ 2, 4, 6, 8],
[10, 12, 14, 16],
[18, 20, 22, 24],
[26, 28, 30, 32]])

np.add(mat, mat)

输出：array([[ 2, 4, 6, 8],
[10, 12, 14, 16],
[18, 20, 22, 24],
[26, 28, 30, 32]])

mat * mat

两个数组相乘，也可以使用np.multiply函数实现
对应元素之间的乘法，不同于线性代数中的矩阵相乘
输出：array([[ 1, 4, 9, 16],
[ 25, 36, 49, 64],
[ 81, 100, 121, 144],
[169, 196, 225, 256]])

例：将每一行的红酒数据与第0行数据进行比较，即计算与第0行数据的差值

wine - wine[0]

注意，这里两个数组的大小不同
大小不同的数组之间的运算叫做广播
输出：array([[ 0. , 0. , 0. ],
[-0.31, 0.4 , 0. ],
[-0.25, 0.4 , 0. ],
[-0.35, 0.4 , 1. ],
[ 0. , 0. , 0. ],
[ 0. , 0. , 0. ],
[-0.21, 0. , 0. ],
[-0.12, 0.6 , 2. ],
[-0.15, 0.1 , 2. ],
[-0.16, 1.1 , 0. ]])

6. 常用函数举例

wine
输出：array([[ 3.51, 9.4 , 5. ],
[ 3.2 , 9.8 , 5. ],
[ 3.26, 9.8 , 5. ],
[ 3.16, 9.8 , 6. ],
[ 3.51, 9.4 , 5. ],
[ 3.51, 9.4 , 5. ],
[ 3.3 , 9.4 , 5. ],
[ 3.39, 10. , 7. ],
[ 3.36, 9.5 , 7. ],
[ 3.35, 10.5 , 5. ]])

例1：计算红酒数据每一个属性的平均值（即每一列数据的平均值）

np.sum(wine)

首先用np.sum()获取数据的和
这里将数组中的所有元素相加了，但是我们想要的是每一列数据的和
输出：185.55000000000001

np.sum(wine, axis=0) # 使用axis参数来设置求和的方式， axis=0表示对列求和，axis=1表示对行求和

输出：array([ 33.55, 97. , 55. ])

np.sum(wine, axis=0) / len(wine) # 每列的总和除以行数，得到每列的均值

输出：array([ 3.355, 9.7 , 5.5 ])

np.mean(wine, axis=0) # 直接使用np.mean()函数，但记得设置axis参数

输出：array([ 3.355, 9.7 , 5.5 ])

例2：找到红酒数据每一项属性中的最大和最小值

np.max(wine, axis=0)

输出：array([ 3.51, 10.5 , 7. ])

np.min(wine, axis=0)

输出：array([ 3.16, 9.4 , 5. ])

例3：将红酒数据中的PH值数据进行排序

np.sort(wine[:, 0])

输出：array([ 3.16, 3.2 , 3.26, 3.3 , 3.35, 3.36, 3.39, 3.51, 3.51, 3.51])

例4：找出红酒数据中都有哪几种评分，即求评分数据中不重复的打分

np.unique(wine[:,2])

输出：array([ 5., 6., 7.])

例5：生成一组新的数据，如果评分大于5，其值为‘Good’；如果评分小于等于5，其值为‘Bad'

new = list() # 使用循环和判断语句
for s in wine[:,2] :
if s > 5 :
new.append('Good')
else:
new.append('Bad')

new
输出：['Bad', 'Bad', 'Bad', 'Good', 'Bad', 'Bad', 'Bad', 'Good', 'Good', 'Bad']

[('Good' if s > 5 else 'Bad') for s in wine[:,2]] # 使用列表解析

输出：['Bad', 'Bad', 'Bad', 'Good', 'Bad', 'Bad', 'Bad', 'Good', 'Good', 'Bad']

np.where(wine[:,2] > 5, 'Good', 'Bad') # 使用np.where()函数

输出：array(['Bad', 'Bad', 'Bad', 'Good', 'Bad', 'Bad', 'Bad', 'Good', 'Good',
'Bad'],
dtype='<U4')

最后编辑于：2017.12.10 02:21:40

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,214评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,307评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,543评论 0赞 341
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,221评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,224评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,007评论 1赞 284
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,313评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,956评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,441评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,925评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,018评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,685评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,234评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,240评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,464评论 1赞 261
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,467评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,762评论 2赞 345

Python编程&数据科学入门 Lesson4

第四课 - NumPy 入门

本课内容：

NumPy 是 Numerical Python 的简称，是 Python 科学计算的核心包。其强大的科学计算能力在很多高级包中得到应用。比如，在后续课程中的 pandas 就是基于 NumPy 的一种工具包。

numpy主要特点

0. 导入 NumPy 包

import numpy as np

1. 创建 NumPy 数组

numpy的一个重要对象(object)是 ndarray， 也称 NumPy 数组

1-1. 一维数组

1-2. 二维数组

1-3. 其他快速创建数组的函数

np.arange(10)

np.arange(2, 10, 2)

np.random.rand(5) # 创建 [0, 1) 之间的随机数

np.random.randint(1, 10, size=8) # 创建指定范围内的随机整数

np.zeros((2,3)) # 输入的是元组

np.empty((3,3))

np.random.rand(3,5)

np.random.randint(1, 10, size=(3,5))

2. 索引和切片

2-1. 一维数组

* 数组切片是原始数组的视图，也就是说数据不会被复制，任何修改都会影响到原有的数组上。

* 如果要对数组的切片进行复制，需要使用.copy()方法

2-2. 二维数组

mat = np.arange(1,17) # 用一维数组来生成二维数组

mat.shape = (4, 4)

mat

* 获取二维数组的行

mat[1:3] #等价于mat[[1,2]]

* 获取二维数组的行和列

* 查看某一个元素，有两种方式

* 索引和切片的混用

方括号第一个参数指定要取的行位置，第二个参数指定要取得列位置，中间使用逗号隔开

3. 读取文件

wine_data = np.genfromtxt('winequality-red.csv', delimiter=';', skip_header=1)

wine_data

读取红酒品质数据，原数据以分号进行分隔，并且跳过第一行

数据文件中第一行是字段名，属于字符串类型，而numpy数组的所有元素必须是一致的数据类型，故需要跳过第一行，否则会出错。

wine_data.shape # 查看数组的形状，行和列

wine_data.dtype # 查看数组中元素的类型

wine = wine_data[:10, [8,10,11]]

4. 布尔型索引

例1：获取评分大于5的红酒数据

wine[:, 2] > 5# 第2列数据代表质量评分

wine[wine[:, 2] > 5]

例2：获取评分大于5，且酒精度大于等于10的红酒数据

mask = (wine[:,2] > 5) & (wine[:,1] >= 10)

wine[mask]

5. 数组的运算

5-1. 数组与单个数之间的运算

mat / 2 # 每个元素都除以2

mat ** 2 # 每个元素都平方

(mat + 100) / 100

例：将红酒评分数据转换成百分制，即原评分乘以10

score = wine[:, 2] # 获取评分数据的数组

score * 10

5-2. 数组与数组之间的运算

mat + mat # 两个数组相加

np.add(mat, mat)

mat * mat

例：将每一行的红酒数据与第0行数据进行比较，即计算与第0行数据的差值

wine - wine[0]

6. 常用函数举例

例1：计算红酒数据每一个属性的平均值（即每一列数据的平均值）

np.sum(wine)

np.sum(wine, axis=0) # 使用axis参数来设置求和的方式， axis=0表示对列求和，axis=1表示对行求和

np.sum(wine, axis=0) / len(wine) # 每列的总和除以行数，得到每列的均值

np.mean(wine, axis=0) # 直接使用np.mean()函数，但记得设置axis参数

例2：找到红酒数据每一项属性中的最大和最小值

np.max(wine, axis=0)

np.min(wine, axis=0)

例3：将红酒数据中的PH值数据进行排序

np.sort(wine[:, 0])

例4：找出红酒数据中都有哪几种评分，即求评分数据中不重复的打分

np.unique(wine[:,2])

例5：生成一组新的数据，如果评分大于5，其值为‘Good’；如果评分小于等于5，其值为‘Bad'

[('Good' if s > 5 else 'Bad') for s in wine[:,2]] # 使用列表解析

np.where(wine[:,2] > 5, 'Good', 'Bad') # 使用np.where()函数

推荐阅读更多精彩内容

numpy的一个重要对象(object)是 ndarray，也称 NumPy 数组

* 如果要对数组的切片进行复制，需要使用`.copy()`方法