Fluent Python笔记--序列数组

列表推导式与filter和map

列表推到式所能达到的效果，通常也可以通过filter和map的组合使用来达到。后者是Python语言层级对于函数式编程的支持（相关的方法还有reduce和几乎用不到的apply）。下面是一个列表推导式和filter和map的示例：

>>> symbols = '$¢£¥€¤'
>>> list_comp = [ord(s) for s in symbols if ord(s)>127] #列表推导式
>>> gen_comp = (ord(s) for s in symbols if ord(s)>127) #生成器推导式
>>> filter_map = list(filter(map(lambda c: c>127, map(ord, symbols)))) #filter和map的组合
>>> list_comp == filter_map
True

一个tuple的例子一个list的例子

一个例子说明list中乘法操作的副作用

>>> list_1 = [['_'] * 3 for _ in range(3)]
[['_', '_', '_'], ['_', '_', '_'], ['_', '_', '_']]
>>> list_2 = [['_'] * 3] * 3
[['_', '_', '_'], ['_', '_', '_'], ['_', '_', '_']]
>>> list_1[1][2] = 'X'
[['_', '_', '_'], ['_', '_', 'X'], ['_', '_', '_']]
>>> list_2[1][2] = 'X'
[['_', '_', 'X'], ['_', '_', 'X'], ['_', '_', 'X']]

上面例子说明list_2中的三个嵌套list实际上是同一个list的引用，说明了*操作的实质。
都知道tuple是不可变的数据结构。那么下面的例子也许会让你有点吃惊:

>>> t = (1, 2, [3, 4])
>>> id(t[2])
43044040
>>> t[2] += [5, 6]
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
TypeError: 'tuple' object does not support item assignment
>>> t
(1, 2, [3, 4, 5, 6])
>>> id(t[2])
43044040
>>> t.append(7)
>>> t
(1, 2, [3, 4, 5, 6, 7])
>>> id(t[2])
43044040

上面情况中，不可变数据结构tuple中的元素list的内容发生了变化，但这并没有违反“不可变”的约束！不信你看看t[2]元素从头至尾在内存中的位置都没有变化( id()的结果)。
这给了我们几个警示:

不可变数据结构中不应该出现可变元素
+=不是一个原子操作，而是两个独立的操作，一个操作的失败并不会影响另一个操作

用bisect维护排序序列

下面的例子是向一个排序序列中的适当位置插入元素，而保持序列依旧是排序的:

import bisect
import sys

HAYSTACK = [1, 4, 5, 6, 8, 12, 15, 20, 21, 23, 23, 26, 29, 30]
NEEDLES = [0, 1, 2, 5, 8, 10, 22, 23, 29, 30, 31]

ROW_FMT = '{0:2d} @ {1:2d} {2}{0:<2d}'

def demo(bisect_fn):
    for needle in reversed(NEEDLES):
        position = bisect_fn(HAYSTACK, needle) 
        offset = position * ' |' 
        print(ROW_FMT.format(needle, position, offset)) 

if __name__ == '__main__':
    if sys.argv[-1] == 'left': 
        bisect_fn = bisect.bisect_left
    else:
        bisect_fn = bisect.bisect
    print('DEMO:', bisect_fn.__name__) 
    print('haystack ->', ' '.join('%2d' % n for n in HAYSTACK))
    demo(bisect_fn)

bisect内部通过二分查找来实现的index方法。bisect_left和bisect_right的不同可能会导致序列是否稳定。

More than list

array

如果有一个存储大量数据的只含数字的序列，array.array是一个更好的选择。它提供pop,insert,'extend'方法来操作数组，还提供frombytes和tofile来提供更快的文件读写操作。与list不同，array.array的初始化时需要声明类型，并且它在单一数组中仅支持一种类型。

>>> from array import array 
>>> from random import random
>>> floats = array('d', (random() for i in range(10**7))) 
>>> floats[-1] 
0.07802343889111107
>>> fp = open('floats.bin', 'wb')
>>> floats.tofile(fp) # 写文件操作
>>> fp.close()
>>> floats2 = array('d') 
>>> fp = open('floats.bin', 'rb')
>>> floats2.fromfile(fp, 10**7) # 读文件操作
>>> fp.close()
>>> floats2[-1] 
0.07802343889111107
>>> floats2 == floats 
True
>>> sorted_floats = array.array(floats.typecode, sorted(floats))

memoryview

内存视图(memoryview)其实是泛化和去数学化的 NumPy 数组。它让你在不需要复制内容的前提下，
在数据结构之间共享内存。其中数据结构可以是任何形式，比如 PIL 图片、SQLite
数据库和 NumPy 的数组，等等。这个功能在处理大型数据集合的时候非常重要。 ---Travis Oliphant

memory.cast可以用不同的方式读写同一块内存并展示成不同的数据格式，支持字节级别的修改数据。

>>> numbers = array.array('h', [-2, -1, 0, 1, 2])
>>> memv = memoryview(numbers) 
>>> len(memv)
5
>>> memv[0] 
-2
>>> memv_oct = memv.cast('B') 
>>> memv_oct.tolist() 
[254, 255, 255, 255, 0, 0, 1, 0, 2, 0]
>>> memv_oct[5] = 4 
>>> numbers
array('h', [-2, -1, 1024, 1, 2])

Numpy和SciPy

NumPy扩展来数组，是它更便于去操作大量的数据，更加方便计算，在数据分析方面中的Pandas和TensorFlow，MXNet等库中对于数组的操作都和NumPy.array十分相似。
SciPy实现了许多线性代数和数值分析统计学的计算。
关于这两种优秀的库，有一本书SciPy Lecture Notes非常值得一读（美中不足是没有pandas相关的内容）。

队列

通过使用append和pop，list可以达到队列和栈的效果。但这在语义性和操作性能上都有所不足。
collections.deque是一个双向队列，支持从首尾两端添加/删除元素，初始化时还有指定队列长度是其最多只保留特定数量的元素。

>>> from collections import deque
>>> dq = deque(range(10), maxlen=10) 
>>> dq
deque([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], maxlen=10)
>>> dq.rotate(3) 
>>> dq
deque([7, 8, 9, 0, 1, 2, 3, 4, 5, 6], maxlen=10)
>>> dq.rotate(-4)
>>> dq
deque([1, 2, 3, 4, 5, 6, 7, 8, 9, 0], maxlen=10)
>>> dq.appendleft(-1) 
>>> dq
deque([-1, 1, 2, 3, 4, 5, 6, 7, 8, 9], maxlen=10)
>>> dq.extend([11, 22, 33]) 
>>> dq
deque([3, 4, 5, 6, 7, 8, 9, 11, 22, 33], maxlen=10)
>>> dq.extendleft([10, 20, 30, 40]) 
>>> dq
deque([40, 30, 20, 10, 3, 4, 5, 6, 7, 8], maxlen=10)