Python编程&数据科学入门 Lesson4

第四课 - NumPy 入门

本课内容:

  • 0. 导入 NumPy 包
  • 1. 创建 NumPy 数组
  • 2. 索引和切片
  • 3. 读取文件
  • 4. 布尔型索引
  • 5. 数组的运算
  • 6. 常用函数举例
NumPy 是 Numerical Python 的简称,是 Python 科学计算的核心包。其强大的科学计算能力在很多高级包中得到应用。比如,在后续课程中的 pandas 就是基于 NumPy 的一种工具包。
numpy主要特点
  • 使用向量化操作以简化数据处理,包括取子集,过滤,和变形等等。
  • 高效的数据总结,排序功能。
  • numpy数组中的元素只能是同一种数据类型
  • numpy数组的运算,更简洁且高效

0. 导入 NumPy 包

import numpy as np

1. 创建 NumPy 数组

numpy的一个重要对象(object)是 ndarray, 也称 NumPy 数组
  • ndarray 是 Multidimensional Array的缩写,中文称为多(multi)维(dimensional)数组(array)。
  • 数组可以存储大量数据并在其进行数学运算,我们可以使用数组在一块数据上进行操作从而避免使用循环来操作单个元素。

1-1. 一维数组

value = [1,2,3]
arr1d = np.array(value)
arr1d
输出:array([1, 2, 3])

& type(arr1d) # 查看数据类型
输出:numpy.ndarray

& arr1d.ndim # 查看维度,返回1,说明是一维数组
输出:1

1-2. 二维数组

value = [[1,2,3],[4,5,6]] # 从二维列表中创建二维数组
arr2d = np.array(value)
arr2d
输出:array([[1, 2, 3],
[4, 5, 6]])

二维数组就类似一个矩阵

| 1 2 3 |
| 4 5 6 |

  • 0轴 (axis=0) 是列,也就是垂直方向
  • 1轴 (axis=1) 是行,也就是水平方向
  • 矩阵对于数据分析来说,是一个重要的概念,一般用列来代表观测对象的各种属性、特征,用行来记录每一个观测对象的一组测量数据。

& arr2d.ndim #查看维度,返回2,代表二维数组
输出:2

& arr2d.shape
输出:(2, 3) # 注意,结果存储在一个元组里

  • 使用shape来查看行数以及列数
  • arr2d是一个两行三列的二维数组

1-3. 其他快速创建数组的函数

  • 一维数组
    np.zeros(5) # 创建全0数组
    输出:array([ 0., 0., 0., 0., 0.])
    np.empty(10) # 创建空数组,其元素的值不一定为0,它返回的是一些未初始化的垃圾值。
    输出:array([ -1.72723371e-077, 2.00389882e+000, 1.94100914e-080,
    3.90719476e-086, 2.28191497e+232, 4.08955235e-080,
    2.55671117e+161, 1.98854918e-081, 3.03467606e-086,
    6.95335581e-309])
    np.ones(5) # 创建元素都为1的数组
    输出:array([ 1., 1., 1., 1., 1.])

np.arange(10)

  • np.arange 类似于Python中的range函数,是它的数组版
  • 数组元素从0 到 9
    输出:array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

np.arange(2, 10, 2)

  • 10以内的偶数构成数组
  • arange() 中的参数分别是:起始值,终值(不被包含),步长(类似等差数列)
    输出:array([2, 4, 6, 8])

np.random.rand(5) # 创建 [0, 1) 之间的随机数

输出:array([ 0.78408467, 0.38615392, 0.20028395, 0.4741344 , 0.8794998 ])

np.random.randint(1, 10, size=8) # 创建指定范围内的随机整数

输出:array([6, 4, 9, 2, 2, 3, 1, 3])

  • 二维数组

np.zeros((2,3)) # 输入的是元组

输出:array([[ 0., 0., 0.],
[ 0., 0., 0.]])

np.empty((3,3))

输出:array([[ 4.94065646e-324, 9.88131292e-324, 1.48219694e-323],
[ 1.97626258e-323, 2.47032823e-323, 2.96439388e-323],
[ 3.45845952e-323, 3.95252517e-323, 4.44659081e-323]])
In [17]:

np.random.rand(3,5)

输出:array([[ 0.61108731, 0.28309232, 0.3224213 , 0.97465818, 0.67250497],
[ 0.42063949, 0.97061055, 0.63820155, 0.53084675, 0.65285927],
[ 0.36935495, 0.4308036 , 0.40956562, 0.42018877, 0.78010878]])

np.random.randint(1, 10, size=(3,5))

输出:array([[9, 5, 7, 9, 4],
[2, 6, 6, 7, 3],
[6, 7, 4, 5, 1]])

2. 索引和切片

选取数组中的元素或者是数据的子集

使用[ ]运算符对数进行切片和索引等操作

2-1. 一维数组

  • 一维数组的索引和切片,与Python列表差不多
    arr = np.arange(10) # 创建一个一维的数组
    arr
    输出:array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
    arr[3] # 一维数组的索引
    输出:3
    arr[3:7] # 一维数组的切片
    输出:array([3, 4, 5, 6])

* 数组切片是原始数组的视图,也就是说数据不会被复制,任何修改都会影响到原有的数组上。

arr2 = arr[3:7]
arr2[0] = 13
arr # arr的元素被改变了
输出:array([ 0, 1, 2, 13, 4, 5, 6, 7, 8, 9])

* 如果要对数组的切片进行复制,需要使用.copy()方法

arr = np.arange(10)
arr3 = arr[3:7].copy() # 使用.copy()
arr3[0] = 13
arr # arr的元素没有被改变
输出:array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

2-2. 二维数组

mat = np.arange(1,17) # 用一维数组来生成二维数组

mat.shape = (4, 4)

mat

输出:array([[ 1, 2, 3, 4],
[ 5, 6, 7, 8],
[ 9, 10, 11, 12],
[13, 14, 15, 16]])

  • 获取二维数组的某一行
  • 对于二维数组,每个索引对应的是一个一维数组!
    mat[0] # 对应第0行
    输出:array([1, 2, 3, 4])

* 获取二维数组的行

* mat[起始行:终结行] :从起始行开始,但不包括终结行
* mat[起始行:] : 从起始行到最后一行
* mat[: 终结行] : 从第0行到终结行但不包括终结行

mat[1:3] #等价于mat[[1,2]]

输出:array([[ 5, 6, 7, 8],
[ 9, 10, 11, 12]])

  • 类似于列表切片,查看第二和第三行
  • ndarray的切片是沿着行方向的
  • 和列表切片一样,第三行是不包括的

* 获取二维数组的行和列

* 查看某一个元素,有两种方式

mat[1][3] # 先获取第一行,再查找第三列
输出:8
mat[1,3] # 用一个逗号来隔开行和列的索引
输出:8

* 索引和切片的混用

方括号第一个参数指定要取的行位置,第二个参数指定要取得列位置,中间使用逗号隔开

mat[0:3, 1] # 取出第0行到第2行,第1列
输出:array([ 2, 6, 10])
mat[2:, 2:]
输出:array([[11, 12],
[15, 16]])

  • 可以同时在行和列同时做切片
  • 取出第1行到最后一行,第2列到第3列

3. 读取文件

wine_data = np.genfromtxt('winequality-red.csv', delimiter=';', skip_header=1)

wine_data

输出:array([[ 7.4 , 0.7 , 0. , ..., 0.56 , 9.4 , 5. ],
[ 7.8 , 0.88 , 0. , ..., 0.68 , 9.8 , 5. ],
[ 7.8 , 0.76 , 0.04 , ..., 0.65 , 9.8 , 5. ],
...,
[ 6.3 , 0.51 , 0.13 , ..., 0.75 , 11. , 6. ],
[ 5.9 , 0.645, 0.12 , ..., 0.71 , 10.2 , 5. ],
[ 6. , 0.31 , 0.47 , ..., 0.66 , 11. , 6. ]])

读取红酒品质数据,原数据以分号进行分隔,并且跳过第一行

数据文件中第一行是字段名,属于字符串类型,而numpy数组的所有元素必须是一致的数据类型,故需要跳过第一行,否则会出错。

wine_data.shape # 查看数组的形状,行和列

输出:(1599, 12)

wine_data.dtype # 查看数组中元素的类型

输出:dtype('float64')

wine = wine_data[:10, [8,10,11]]

  • 取前10行数据中的8,10,11列,分别对应红酒的PH值、酒精度、质量评分这三类属性#

为简单起见,后续将使用这组数据进行分析示例
wine
输出:array([[ 3.51, 9.4 , 5. ],
[ 3.2 , 9.8 , 5. ],
[ 3.26, 9.8 , 5. ],
[ 3.16, 9.8 , 6. ],
[ 3.51, 9.4 , 5. ],
[ 3.51, 9.4 , 5. ],
[ 3.3 , 9.4 , 5. ],
[ 3.39, 10. , 7. ],
[ 3.36, 9.5 , 7. ],
[ 3.35, 10.5 , 5. ]])

4. 布尔型索引

  • 之前的切片索引方法是通过指定行或列的位置来取一个数组的一部分
  • 顾名思义,布尔索引是通过一个布尔型数组来确定所需要的行或者列的位置
  • 当行或列位置对应的布尔索引为True的时候,我们会保留这个行或列。反之,当对应的布尔索引为False的时候,则不选取。

例1:获取评分大于5的红酒数据

wine[:, 2] > 5# 第2列数据代表质量评分

输出:array([False, False, False, True, False, False, False, True, True, False], dtype=bool)

wine[wine[:, 2] > 5]

输出:array([[ 3.16, 9.8 , 6. ],
[ 3.39, 10. , 7. ],
[ 3.36, 9.5 , 7. ]])

例2:获取评分大于5,且酒精度大于等于10的红酒数据

mask = (wine[:,2] > 5) & (wine[:,1] >= 10)

mask

  • 第1列代表酒精度,第2列代表评分
  • 使用布尔运算符 (& , | ) 来组合多个布尔条件
    输出:array([False, False, False, False, False, False, False, True, False, False], dtype=bool)

wine[mask]

输出:array([[ 3.39, 10. , 7. ]])

5. 数组的运算

5-1. 数组与单个数之间的运算

mat / 2 # 每个元素都除以2

输出:array([[ 0.5, 1. , 1.5, 2. ],
[ 2.5, 3. , 3.5, 4. ],
[ 4.5, 5. , 5.5, 6. ],
[ 6.5, 7. , 7.5, 8. ]])

mat ** 2 # 每个元素都平方

输出:array([[ 1, 4, 9, 16],
[ 25, 36, 49, 64],
[ 81, 100, 121, 144],
[169, 196, 225, 256]])

(mat + 100) / 100

输出:array([[ 1.01, 1.02, 1.03, 1.04],
[ 1.05, 1.06, 1.07, 1.08],
[ 1.09, 1.1 , 1.11, 1.12],
[ 1.13, 1.14, 1.15, 1.16]])

例:将红酒评分数据转换成百分制,即原评分乘以10

score = wine[:, 2] # 获取评分数据的数组

score
输出:array([ 5., 5., 5., 6., 5., 5., 5., 7., 7., 5.])

score * 10

输出:array([ 50., 50., 50., 60., 50., 50., 50., 70., 70., 50.])

  • Numpy 数组的任何算数运算,都会将运算运用到元素级别。
  • 这样的矢量化运算是NumPy 数组的优势, Python列表要实现这一操作就需要编写循环。

5-2. 数组与数组之间的运算

  • 两个行列数相符的数列可以进行运算
  • 运算操作将应用到数列中对应的每一个元素

mat + mat # 两个数组相加

输出:array([[ 2, 4, 6, 8],
[10, 12, 14, 16],
[18, 20, 22, 24],
[26, 28, 30, 32]])

np.add(mat, mat)

输出:array([[ 2, 4, 6, 8],
[10, 12, 14, 16],
[18, 20, 22, 24],
[26, 28, 30, 32]])

mat * mat

  • 两个数组相乘, 也可以使用np.multiply函数实现
  • 对应元素之间的乘法,不同于线性代数中的矩阵相乘
    输出:array([[ 1, 4, 9, 16],
    [ 25, 36, 49, 64],
    [ 81, 100, 121, 144],
    [169, 196, 225, 256]])

例:将每一行的红酒数据与第0行数据进行比较,即计算与第0行数据的差值

wine - wine[0]

  • 注意,这里两个数组的大小不同
  • 大小不同的数组之间的运算叫做广播
    输出:array([[ 0. , 0. , 0. ],
    [-0.31, 0.4 , 0. ],
    [-0.25, 0.4 , 0. ],
    [-0.35, 0.4 , 1. ],
    [ 0. , 0. , 0. ],
    [ 0. , 0. , 0. ],
    [-0.21, 0. , 0. ],
    [-0.12, 0.6 , 2. ],
    [-0.15, 0.1 , 2. ],
    [-0.16, 1.1 , 0. ]])

6. 常用函数举例

wine
输出:array([[ 3.51, 9.4 , 5. ],
[ 3.2 , 9.8 , 5. ],
[ 3.26, 9.8 , 5. ],
[ 3.16, 9.8 , 6. ],
[ 3.51, 9.4 , 5. ],
[ 3.51, 9.4 , 5. ],
[ 3.3 , 9.4 , 5. ],
[ 3.39, 10. , 7. ],
[ 3.36, 9.5 , 7. ],
[ 3.35, 10.5 , 5. ]])

例1:计算红酒数据每一个属性的平均值(即每一列数据的平均值)

np.sum(wine)

  • 首先用np.sum()获取数据的和
  • 这里将数组中的所有元素相加了,但是我们想要的是每一列数据的和
    输出:185.55000000000001

np.sum(wine, axis=0) # 使用axis参数来设置求和的方式, axis=0表示对列求和,axis=1表示对行求和

输出:array([ 33.55, 97. , 55. ])

np.sum(wine, axis=0) / len(wine) # 每列的总和除以行数,得到每列的均值

输出:array([ 3.355, 9.7 , 5.5 ])

np.mean(wine, axis=0) # 直接使用np.mean()函数,但记得设置axis参数

输出:array([ 3.355, 9.7 , 5.5 ])

例2:找到红酒数据每一项属性中的最大和最小值

np.max(wine, axis=0)

输出:array([ 3.51, 10.5 , 7. ])

np.min(wine, axis=0)

输出:array([ 3.16, 9.4 , 5. ])

例3:将红酒数据中的PH值数据进行排序

np.sort(wine[:, 0])

输出:array([ 3.16, 3.2 , 3.26, 3.3 , 3.35, 3.36, 3.39, 3.51, 3.51, 3.51])

例4:找出红酒数据中都有哪几种评分,即求评分数据中不重复的打分

np.unique(wine[:,2])

输出:array([ 5., 6., 7.])

例5:生成一组新的数据,如果评分大于5,其值为‘Good’;如果评分小于等于5,其值为‘Bad'

new = list() # 使用循环和判断语句
for s in wine[:,2] :
if s > 5 :
new.append('Good')
else:
new.append('Bad')

new
输出:['Bad', 'Bad', 'Bad', 'Good', 'Bad', 'Bad', 'Bad', 'Good', 'Good', 'Bad']

[('Good' if s > 5 else 'Bad') for s in wine[:,2]] # 使用列表解析

输出:['Bad', 'Bad', 'Bad', 'Good', 'Bad', 'Bad', 'Bad', 'Good', 'Good', 'Bad']

np.where(wine[:,2] > 5, 'Good', 'Bad') # 使用np.where()函数

输出:array(['Bad', 'Bad', 'Bad', 'Good', 'Bad', 'Bad', 'Bad', 'Good', 'Good',
'Bad'],
dtype='<U4')

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,214评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,307评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,543评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,221评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,224评论 5 371
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,007评论 1 284
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,313评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,956评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,441评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,925评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,018评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,685评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,234评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,240评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,464评论 1 261
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,467评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,762评论 2 345

推荐阅读更多精彩内容