散列表
PyDictObject采用了散列表,搜索效率高。python使用开放定址法(二次搜索法)来解决散列冲突的问题,所以dict的删除其实为伪删除。
考虑对dict的优化为:定期整理一下dict,重新构建
元素结构
typedef struct {
Py_ssize_t me_hash; // 缓存的key的hash值
PyObject *me_key;
PyObject *me_value;
} PyDictEntry;
元素有三种状态
Unused
还没有存储东西,key、value都为NULL。
Active
存储了一个值,key、value都非空,同时key不能为dummy
dummy
已被删除(伪),key为dummy,value为NULL
容器实现
typedef struct _dictobject PyDictObject;
struct _dictobject {
PyObject_HEAD
Py_ssize_t ma_fill; // 已分配元素总个数(active+dummy)
Py_ssize_t ma_used; // 活着的元素个数(active)
Py_ssize_t ma_mask; // 元素可容纳的总个数 也就是数组的大小
PyDictEntry *ma_table; // 指向存放dict元素的数组 初始指向默认的8个元素的字典ma_smalltable
PyDictEntry *(*ma_lookup)(PyDictObject *mp, PyObject *key, long hash);
PyDictEntry ma_smalltable[PyDict_MINSIZE]; // 默认的8个元素的字典
};
创建
创建时同样利用了free_dicts缓冲池技术,和list类似
搜索
lookdict_string(PyDictObject *mp, PyObject *key, register long hash)
1、根据hash值获得entry的索引,取得entry
2、如果该entry为Unused 搜索失败 结束;
3、如果该entry处于Active状态,比较key,如果key相同,搜索成功 结束
3、设置free_slot 继续搜索
lookdict_string(PyDictObject *mp, PyObject *key, register long hash)
针对搜索key为str类型时的特殊处理