「Python3学习笔记」读书笔记—字典

字典是内置类型中唯一的映射(Mapping)结构,基于哈希表存储键值对数据。

值可以是任意类型的数据,但主键必须是可哈希的类型。常见的可变类型,如列表、集合等都不能作为主键使用。即便是元组等不可变类型,也不能引用可变类型元素,即元组中不能含有可变类型的元素。

>>> import collections
>>> issubclass(list, collections.Hashable)
False
>>> issubclass(int, collections.Hashable)
True

>>> hash((1, 2, 3))
2528502973977326415
>>> hash((1, 2, [1, 2]))        # 包含可变类型
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
TypeError: unhashable type: 'list'

哈希计算通过调用 __hash__ 方法返回整数值,用来快速比较内容是否相同。某些类型虽然有该方法,但实际无法执行,故不能作为主键使用。另外,主键对象的哈希值必须恒定不变,否则无法查找键值,甚至会引发错误。

>>> callable(list().__hash__)
False

自定义类型默认实现了 __hash__ 和 __eq__ 方法,用与哈希和相等比较操作。前者为每个实例返回随机值;后者除非与自己比较,否则总是返回 False。这两个方法可根据需要进行重载。

作为常用的数据结构,又因为命名空间的缘故,字典的使用频率非常高。Python 开发团队也一直致力于改进其数据结构和算法,这其中自然也包括惯用的缓存复用。

Python 3.6 借鉴 PyPy 字典设计,采用更紧凑的存储结构。keys.entries 和 values 用数组按添加顺序存储主键和值引用。实际哈希表由 keys.indices 数组承担,通过计算主键哈希值找到合适的位置,然后在该位置存储主键在 key.entries 的实际索引。如此一来,只要通过 indices 获取实际索引后,就可读取主键和值信息了。

虽然该版本按添加顺序存储元素,但内部实现不能作为依赖条件。在后续版本中,可能有其他变化。如有明确顺序需求,建议使用 collections.OrderDict。

系统分别缓存复用 80 个 dict 和 keys,其中包括长度为 8 的 entries 内存。对于大量小字典对象而言,直接使用,无须任何内存分配操作。回收时,凡内存被扩张过的都会被放弃。

从开发地址法(open-address)实现方式来看,它并不适合处理大数据。轻量级方案可选用 shelve、dbm 等标准库模块,也可直接采用 SQLite、LevelDB 等专业数据库。

构建

创建字典对象可以使用大括号键值对方式创建,或调用类型构造。

>>> {"a": 1, "b": 2}
{'a': 1, 'b': 2}
>>> dict(a=1, b=2)
{'a': 1, 'b': 2}

初始化键值参数也可以用元组、列表等可迭代对象的方式提供。

>>> kvs = (("a", 1), ["b", 2])
>>> dict(kvs)
{'a': 1, 'b': 2}

基于动态数据创建时,多以 zip、map 函数或推导式完成。

>>> dict(zip("abc", range(3)))
{'a': 0, 'b': 1, 'c': 2}
>>> dict(map(lambda k, v: (k, v + 10), "abc", range(3)))
{'a': 10, 'b': 11, 'c': 12}
>>> {k: v + 10 for k, v in zip("abc", range(3))}
{'a': 10, 'b': 11, 'c': 12}

除了直接提供内容外,某些时候,还须根据一定条件初始化字典对象。比如,基于已有字典内容扩展,或初始化零值等。

>>> a = {"a": 1}
>>> b = dict(a, b=1)        # 在复制 a 内容的基础上,新增键值对
>>> b
{'a': 1, 'b': 1}
>>> c = dict.fromkeys(b, 0)     # 仅用 b 的主键,内容另设
>>> c
{'a': 0, 'b': 0}
>>> d = dict.fromkeys(("counter1", "counter2"), 0)  # 显示提供主键
>>> d
{'counter1': 0, 'counter2': 0}

相比于 fromkeys 方法,推导式可完成更复杂的操作,比如额外的 if 过滤条件。

操作

字典不是序列类型,不支持序号访问,可以使用主键(键值)读取、新增或删除内容。
若主键(键值)不存在,会引发 KeyError 异常,可以先用 in、not in 语句判断是否存在该主键(键值),或用 get 方法返回默认值。

get 方法默认值参数仅返回,不影响字典内容。但某些时候,我们还须向字典插入默认值,比如用字典存储多个计数器,那么在第一次取值时延迟初始化很有必要。在字典内有零值内容代表该计数曾被使用,没有则无法记录该行为。

>>> x = {}
>>> x.setdefault("a", 0)        # 如果有 a,那么返回实际内容,否则新增{a:0}键值对
0
>>> x
{'a': 0}
>>> x["a"] = 100
>>> x.setdefault("a", 0)
100

字典不支持加法、乘法、大小等运算,但可比较内容是否相同。

>>> {"a": 1, "b": 2} == {"a": 1, "b": 2}
True

视图

与早期版本复制数据并返回列表不同,Python 3 默认以视图关联字典内容。如此一来,既能避免复制开销,还能同步观察字典变化。

>>> x = dict(a = 1, b = 2)
>>> ks = x.keys()       # 主键视图
>>> for k in ks: print(k, x[k])     # 利用视图迭代字典
a 1
b 2

<u>::这一段代码不是很明白,迭代获取值还是从原来的字典中获取的,为什么会叫视图呢?::</u>

字典没有独立的只读版本,无论传递引用还是复制品,都存在弊端:

  • 直接引用有被接收方修改内容的风险
  • 复制品仅是一次快照,无法获知字典的变化

视图则不同,它能同步读取字典内容,却无法修改。且可选择不同粒度的内容进行传递,如此可将接收方限定为指定模式下的观察员。

def test(d):        # 传递键值视图(items),只能读取,无法修改
    for k, v in d:
        print(k, v)

视图还支持集合操作,以弥补字典功能上的不足。

>>> a = dict(a = 1, b = 2)
>>> b = dict(c = 3, b = 2)
>>> ka = a.keys()
>>> kb = b.keys()

>>> ka & kb     # 交集:在 a、b 中同时存在
{'b'}
>>> ka | kb     # 并集:在 a 或 b 中存在
{'b', 'a', 'c'}
>>> ka - kb     # 差集:仅在 a 中存在
{'a'}
>>> ka ^ kb     # 对称差集:仅在 a 或仅在 b 中出现,相当于“并集-交集”
{'a', 'c'}

利用视图的集合运算,可简化某些操作。例如,只更新,不新增。

>>> a = dict(a = 1, b = 2)
>>> b = dict(b = 20, c = 3)

>>> ks = a.keys() & b.keys()        # 交集,也就是 a 中必须存在的主键

>>> a.update({k: b[k] for k in ks}) # 利用交集结果提取待更新的内容
>>> a
{'a': 1, 'b': 20}

拓展

在标准库中,还有几个扩展类型的字典可供使用。

默认字典(defaultdict)类似于 setdefault 方法的包装。当主键不存在时,调用构造参数提供的工厂函数返回默认值。

将字典直接作为对外接口时,无法保证用户是否会调用 setdefault 或 get 方法。这样,默认字典的内置初始化行为就好于对用户做额外要求。

>>> import collections
>>> d = collections.defaultdict(lambda : 100)
>>> d["a"]
100
>>> d["b"] += 1
>>> d
defaultdict(<function <lambda> at 0x10bfb4f28>, {'a': 100, 'b': 101})

与内部实现无关,有序字典(OrderedDict)明确记录主键首次插入的次序。

任何时候都要避免依赖内部实现,或者说遵循“显式优于隐式”的规则。

>>> d = collections.OrderedDict()
>>> d["z"] = 1
>>> d["a"] = 2
>>> d["x"] = 3
>>> for k, v in d.items(): print(k, v)
z 1
a 2
x 3

与前面所说不同,计数器(Counter)对于不存在的主键返回零,但不会新增,即将主键添加到字典中。

可通过继承并重载 __miss__ 方法新增键值

>>> d = collections.Counter()
>>> d["a"]
0
>>> d["b"] += 1
>>> d
Counter({'b': 1})

链式字典(ChainMap)以单一接口访问多个字典内容,其自身并不存储数据。读操作按参数顺序依次查找各字典,但修改操作(新增、更新、删除)仅针对第一字典。

>>> a = dict(a = 1, b =2)
>>> a = dict(a = 1, b = 2)
>>> b = dict(b = 20, c = 30)
>>> x = collections.ChainMap(a, b)

>>> x["b"], x["c"]      # 按顺序命中
(2, 30)
>>> for k, v in x.items(): print(k, v)      # 遍历所有字典
b 2
a 1
c 30

>>> x["b"] = 999        # 更新,命中第一字典
>>> x["z"] = 888        # 新增,命中第一字典
>>> x
ChainMap({'a': 1, 'b': 999, 'z': 888}, {'b': 20, 'c': 30})

可利用链式字典设计多层次的上下文(context)结构。

合理的上下文类型,须具备两个基本特征。首先是继承,所有设置可被调用链的后续函数读取;其次是修改仅针对当前和后续逻辑,不应向无关的父级传递。如此,链式字典查找次序本身就是继承的体现,而修改操作被限制在当前第一字典中中,自然也不会影响父级字典的同名主键设置。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,445评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,889评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,047评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,760评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,745评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,638评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,011评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,669评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,923评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,655评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,740评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,406评论 4 320
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,995评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,961评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,023评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,483评论 2 342

推荐阅读更多精彩内容