算法小专栏:散列表(一)

本篇将介绍散列表哈希表)的相关基础知识。


一、简介

散列表(Hash table,也叫哈希表)是根据关键码值(Key value)而直接进行访问的数据结构。也就是说,它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度。
这个映射函数叫做散列函数,存放记录的数组叫做散列表

二、内部机制

2.1 散列函数:

散列函数:简单来说是一个函数,传入一个Key就返回一个固定的数。该数即为散列表数组的下标。(用一句话描述:散列函数将“输入”映射到“数字”。

2.2 解决冲突:

对不同的关键字可能得到同一散列地址,即k1≠k2,而f(k1)=f(k2),这种现象称为冲突(碰撞)。

常见的解决哈希冲突方案有以下四种:(详细细节见下篇讲解)

  • 开放定址法:为产生冲突的地址H(key)求得一个新的地址序列:
    Hi =(H(key)+ di)% m (i=1,2,3,...,m-1)
    其中H(key)为哈希函数,m为表长,di称为增量序列。(其中增量di的取值方法也有多种,详细细节见下篇

  • 链地址法:将所有哈希地址相同的记录都链接在同一链表中。

  • 再哈希法:产生冲突时计算另一个哈希函数(散列函数)的地址,直到冲突不再发生为止。

  • 建立公共溢出区:把冲突的值都放在另一个溢出表中,不把冲突的值存原表中。

三、性能对比

先介绍一个散列表的专有名词:填装因子负载因子)。

这里列出了常见数据结构操作的时间复杂度。

/ 散列表(平均情况) 散列表(最坏情况) 数组 链表
取值 O(1) O(n) O(1) O(n)
插入 O(1) O(n) O(n) O(1)
删除 O(1) O(n) O(n) O(1)

可以看出散列表在平均情况下的性能是很出色的,虽然最坏情况的性能不好,但我们可以通过一些手段避免掉最坏情况。因此,散列表的最优情况就是平均情况,时间复杂度为常数级O(1)。

因此,散列表在使用中需要注意两点:

  • 较低的填装因子(或称负载因子)。(建议:高于0.7时,考虑散列表翻倍扩容)
  • 优秀的散列函数。(尽量减少冲突的发生)

PS:Python的做法是,会设法保证大概还有三分之一的表元是空的,当快要达到这个阀值的时候,会进行扩容,将原散列表复制到一个更大的散列表里。

四、应用场景

散列表应用广泛,下面介绍几种常见的应用场景。

4.1 散列表用于查找

例如,用散列表实现一个电话薄。

主要功能如下:

  • 加入联系人及电话号码。
  • 通过输入联系人来得出电话号码。
iphone_telBook = dict()

iphone_telBook["police"] = 110
iphone_telBook["647"] = 138888888

print iphone_telBook["police"]
print iphone_telBook["647"]
4.2 防止重复

例如,做一个投票系统,每个用户id只能投一次。
如果用数组或链表,那么查询或插入的时间就会比较多。这时,我们就可以考虑使用散列表。

主要功能如下:

  • 支持投票,加入用户id与被投票者名单。
  • 查询并判断id是否已投过。投过就打印fail,没投过就打印success。
voted = dict()

def check_voter(id):
    if voted.get(id):
        print "failed"
    else:
        print "success"

check_voter(01)
voted[01] = 01
check_voter(01)
4.3 散列表用于缓存

例如,访问一个网站,
会经历如下几个步骤:

  • 向该网站的服务器发送请求。
  • 服务器做一些处理,生成一个网页并将其发送给你。(可做缓存)
  • 你看到了一个网页。

实际上,每次重复的请求都可以做缓存,
下一次发同样请求时就可以直接展示网站,不用再由服务器做一些处理。

缓存是一种常用的加速方式,使用户能够更快的看到网页,同时也减轻了服务端的重复工作量。而这些缓存的数据就存储在散列表中。

模仿代码如下:

cache = dict()

def get_data_from_server(url):
    print "server did some thing here"

def get_page(url):
    if cache.get(url):
        return cache[url]
    else:
        data = get_data_from_server(url)
        cache[url] = data
        return data

cache["www.so.com"] = "360so"
cache["www.baidu.com"] = "baidu"

print get_page("www.so.com")
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 200,045评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,114评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 147,120评论 0 332
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,902评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,828评论 5 360
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,132评论 1 277
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,590评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,258评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,408评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,335评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,385评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,068评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,660评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,747评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,967评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,406评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,970评论 2 341

推荐阅读更多精彩内容

  • 级别: ★☆☆☆☆标签:「算法」「Hash」「散列表」「哈希表」作者: MrLiuQ审校: QiShare团队 本...
    QiShare阅读 824评论 0 6
  • 哈希表定义 散列表(Hash table,也叫哈希表),是根据关键码值(Key value)而直接进行访问的数据结...
    n油炸小朋友阅读 4,838评论 0 22
  • 一、散列的概念 散列方法的主要思想是根据结点的关键码值来确定其存储地址:以关键码值K为自变量,通过一定的函数关系h...
    SeanMa阅读 63,877评论 1 30
  • 一.概念 哈希表就是一种以 键-值(key-indexed) 存储数据的结构,我们只要输入待查找的值即key,即可...
    lfp901020阅读 2,950评论 0 2
  • ORA-00001: 违反唯一约束条件 (.) 错误说明:当在唯一索引所对应的列上键入重复值时,会触发此异常。 O...
    我想起个好名字阅读 5,082评论 0 9