列表推导式与filter和map
列表推到式所能达到的效果,通常也可以通过filter
和map
的组合使用来达到。后者是Python
语言层级对于函数式编程的支持(相关的方法还有reduce
和几乎用不到的apply
)。下面是一个列表推导式和filter
和map
的示例:
>>> symbols = '$¢£¥€¤'
>>> list_comp = [ord(s) for s in symbols if ord(s)>127] #列表推导式
>>> gen_comp = (ord(s) for s in symbols if ord(s)>127) #生成器推导式
>>> filter_map = list(filter(map(lambda c: c>127, map(ord, symbols)))) #filter和map的组合
>>> list_comp == filter_map
True
一个tuple的例子一个list的例子
一个例子说明list
中乘法操作的副作用
>>> list_1 = [['_'] * 3 for _ in range(3)]
[['_', '_', '_'], ['_', '_', '_'], ['_', '_', '_']]
>>> list_2 = [['_'] * 3] * 3
[['_', '_', '_'], ['_', '_', '_'], ['_', '_', '_']]
>>> list_1[1][2] = 'X'
[['_', '_', '_'], ['_', '_', 'X'], ['_', '_', '_']]
>>> list_2[1][2] = 'X'
[['_', '_', 'X'], ['_', '_', 'X'], ['_', '_', 'X']]
上面例子说明list_2
中的三个嵌套list
实际上是同一个list
的引用,说明了*
操作的实质。
都知道tuple
是不可变的数据结构。那么下面的例子也许会让你有点吃惊:
>>> t = (1, 2, [3, 4])
>>> id(t[2])
43044040
>>> t[2] += [5, 6]
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
TypeError: 'tuple' object does not support item assignment
>>> t
(1, 2, [3, 4, 5, 6])
>>> id(t[2])
43044040
>>> t.append(7)
>>> t
(1, 2, [3, 4, 5, 6, 7])
>>> id(t[2])
43044040
上面情况中,不可变数据结构tuple
中的元素list
的内容发生了变化,但这并没有违反“不可变”的约束!不信你看看t[2]
元素从头至尾在内存中的位置都没有变化( id()
的结果)。
这给了我们几个警示:
- 不可变数据结构中不应该出现可变元素
- +=不是一个原子操作,而是两个独立的操作,一个操作的失败并不会影响另一个操作
用bisect维护排序序列
下面的例子是向一个排序序列中的适当位置插入元素,而保持序列依旧是排序的:
import bisect
import sys
HAYSTACK = [1, 4, 5, 6, 8, 12, 15, 20, 21, 23, 23, 26, 29, 30]
NEEDLES = [0, 1, 2, 5, 8, 10, 22, 23, 29, 30, 31]
ROW_FMT = '{0:2d} @ {1:2d} {2}{0:<2d}'
def demo(bisect_fn):
for needle in reversed(NEEDLES):
position = bisect_fn(HAYSTACK, needle)
offset = position * ' |'
print(ROW_FMT.format(needle, position, offset))
if __name__ == '__main__':
if sys.argv[-1] == 'left':
bisect_fn = bisect.bisect_left
else:
bisect_fn = bisect.bisect
print('DEMO:', bisect_fn.__name__)
print('haystack ->', ' '.join('%2d' % n for n in HAYSTACK))
demo(bisect_fn)
bisect
内部通过二分查找来实现的index
方法。bisect_left
和bisect_right
的不同可能会导致序列是否稳定。
More than list
array
如果有一个存储大量数据的只含数字的序列,array.array
是一个更好的选择。它提供pop
,insert
,'extend'方法来操作数组,还提供frombytes
和tofile
来提供更快的文件读写操作。与list
不同,array.array
的初始化时需要声明类型,并且它在单一数组中仅支持一种类型。
>>> from array import array
>>> from random import random
>>> floats = array('d', (random() for i in range(10**7)))
>>> floats[-1]
0.07802343889111107
>>> fp = open('floats.bin', 'wb')
>>> floats.tofile(fp) # 写文件操作
>>> fp.close()
>>> floats2 = array('d')
>>> fp = open('floats.bin', 'rb')
>>> floats2.fromfile(fp, 10**7) # 读文件操作
>>> fp.close()
>>> floats2[-1]
0.07802343889111107
>>> floats2 == floats
True
>>> sorted_floats = array.array(floats.typecode, sorted(floats))
memoryview
内存视图(memoryview)其实是泛化和去数学化的 NumPy 数组。它让你在不需要复制内容的前提下,
在数据结构之间共享内存。其中数据结构可以是任何形式,比如 PIL 图片、SQLite
数据库和 NumPy 的数组,等等。这个功能在处理大型数据集合的时候非常重要。 ---Travis Oliphant
memory.cast
可以用不同的方式读写同一块内存并展示成不同的数据格式,支持字节级别的修改数据。
>>> numbers = array.array('h', [-2, -1, 0, 1, 2])
>>> memv = memoryview(numbers)
>>> len(memv)
5
>>> memv[0]
-2
>>> memv_oct = memv.cast('B')
>>> memv_oct.tolist()
[254, 255, 255, 255, 0, 0, 1, 0, 2, 0]
>>> memv_oct[5] = 4
>>> numbers
array('h', [-2, -1, 1024, 1, 2])
Numpy和SciPy
NumPy
扩展来数组,是它更便于去操作大量的数据,更加方便计算,在数据分析方面中的Pandas
和TensorFlow
,MXNet
等库中对于数组的操作都和NumPy.array
十分相似。
SciPy
实现了许多线性代数和数值分析统计学的计算。
关于这两种优秀的库,有一本书SciPy Lecture Notes非常值得一读(美中不足是没有pandas相关的内容)。
队列
通过使用append
和pop
,list
可以达到队列和栈的效果。但这在语义性和操作性能上都有所不足。
collections.deque
是一个双向队列,支持从首尾两端添加/删除元素,初始化时还有指定队列长度是其最多只保留特定数量的元素。
>>> from collections import deque
>>> dq = deque(range(10), maxlen=10)
>>> dq
deque([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], maxlen=10)
>>> dq.rotate(3)
>>> dq
deque([7, 8, 9, 0, 1, 2, 3, 4, 5, 6], maxlen=10)
>>> dq.rotate(-4)
>>> dq
deque([1, 2, 3, 4, 5, 6, 7, 8, 9, 0], maxlen=10)
>>> dq.appendleft(-1)
>>> dq
deque([-1, 1, 2, 3, 4, 5, 6, 7, 8, 9], maxlen=10)
>>> dq.extend([11, 22, 33])
>>> dq
deque([3, 4, 5, 6, 7, 8, 9, 11, 22, 33], maxlen=10)
>>> dq.extendleft([10, 20, 30, 40])
>>> dq
deque([40, 30, 20, 10, 3, 4, 5, 6, 7, 8], maxlen=10)