Python数据类型之集合

集合的定义

集合是无序可变序列,使用一对大括号(这一点和字典比较类似)作为界定符,元素之间使用逗号分隔,同一个集合内的每个元素都是唯一的,元素之间不允许重复。

集合的英文是set,其特点是:

  1. 有的可变,有的不可变;元素无次充,不可重复。
  2. 元组(tuple)是列表(list)和字符串(str)的杂合,集合(set)是list和dict的杂合。
  3. 集合用{}来定义 ,其中的元素没有序列,并且集合中的元素不可重利,类似于dict的键。
  4. 集合可以在原处修改。

集合的创建

使用set()进行创建

可以使用set()直接创建集合,如下所示:

>>> s1 = set("qiwsir")
>>> print(s1)
{'s', 'i', 'r', 'q', 'w'}
>>> print(type(s1))
<class 'set'>

从结果可以看出,qiwsir中有两个i,但在s1中则只有一个i,即集合中的元素不能重复,如果原来的数据中存在重复的元素,则转换为集合时就只保留一个,再看一个案例:

>>> s2 = set([123,"google","face","book","facebook","book"])
>>> print(s2)
{'google', 123, 'book', 'face', 'facebook'}

从结果可以看出,创建集合的时候与显示集合的时候,元素的顺序不同,这说明集合中的元素没有顺序。再看一案例:

>>> s1 = set("qiwsir")
>>> print(s1)
{'s', 'i', 'r', 'q', 'w'}
>>> s1[1] = ["I"]
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
TypeError: 'set' object does not support item assignment
>>> print(s1)
{'s', 'i', 'r', 'q', 'w'}

这说明,集合不是序列类型,不能用索引方式对其进行修改。

直接使用大括号创建集合

>>> a = {3, 5}
>>> a
{3, 5}
>>> type(a)
<class 'set'>

集合中只能包含数字、字符串、元组等不可变类型(或者说可哈希)的数据,而不能包括列表、字典、集合等可变类型的数据。python提供了一个内置函数hash()来计算对象的哈希值,凡是无法计算哈希值(调用hash()函数时抛出异常)的对象都不能作为集合的元素,也不能作为字典对象的“键”。

集合的转换

类型名称函数能够实现类型的转换,例如str()可以将对象转化为字符串,用list()和set()能够将集合和列表进行转换,如下所示:

>>> s1 = set("qiwsir")
>>> print(s1)
{'s', 'i', 'r', 'q', 'w'}
>>> lst = list(s1)
>>> print(lst)
['s', 'i', 'r', 'q', 'w']
>>> lst[1] = "I"
>>> print(lst)
['s', 'I', 'r', 'q', 'w']

集合元素的添加

集合元素的添加使用add()方法,如下所示:

>>> a_set = {'a',"i","1",1} #创建集合
>>> print(a_set)
{'i', '1', 'a', 1}
>>> print(type(a_set)) #查看对象的类型
<class 'set'>
>>> a_set.add("qiwsir") # 添加一个元素
>>> print(a_set)
{1, 'a', 'i', '1', 'qiwsir'}
>>>
>>> b_set = set("python")
>>> print(type(b_set))
<class 'set'>
>>> print(b_set)
{'h', 'o', 'y', 't', 'n', 'p'}
>>> b_set.add("test")
>>> print(b_set)
{'h', 'o', 'y', 'test', 't', 'n', 'p'}

合并集合

update()方法用于合并另外一个集合的元素到当前集合中,如下所示:

>>> s1 = {'a','b'}
>>> print(s1)
{'a', 'b'}
>>> s2 = {'github','qiwsir'}
>>> print(s2)
{'qiwsir', 'github'}
>>> s1.update(s2)
>>> print(s1)
{'github', 'qiwsir', 'a', 'b'}

集合的运行

字典和集合的in操作比列表快很多。因为python字典和集合使用hash表来存储元素,因此元素查找操作非常快,这就直接决定了关键字in作用于字典和集合时比作用于列表要快得多,看一个案例:

import random
import time

x = list(range(10000))
# 生成列表

y = set(range(10000))
# 生成集合

z = dict(zip(range(1000),range(10000)))
# 生成字典

r = random.randint(0,9999)
# 生成随机数

start = time.time()
for i in range(9999999):
    r in x
print('list, time used: ',time.time() - start)

start = time.time()

for i in range(9999999):
    r in y 
print('set, time used: ',time.time() - start)

start = time.time()
for i in range(999999999):
     r in z
print('dict, time used: ',time.time() - start)

运行结果如下所示:

C:\Users\20161111>python a.py
list, time used:  1369.371190071106
set, time used:  1.289543867111206
dict, time used:  95.13067197799683

删除set中的元素

pop()函数

pop()随机删除并返回集全中的一个元素,如果集合为空,则抛出异常,如下所示:

>>> s3= {'a','b',123,'test'}
>>> print(s3)
{'b', 123, 'a', 'test'}
>>> s3.pop()
'b'
>>> print(s3)
{123, 'a', 'test'}

remove()方法

remove()方法用于删除集合中的元素,如果指定元素不存在,就抛出异常,如下所示:

>>> s3= {'a','b',123,'test'}
>>> print(s3)
{'b', 123, 'a', 'test'}
>>> s3.remove("test")
>>> print(s3)
{'b', 123, 'a'}

discard()方法

discard()方法用于从集合中删除一个特定的元素,如果元素不在集合中,则忽略该操作,如下所示:

>>> s3= {'a','b',123,'test'}
>>> print(s3)
{'b', 123, 'a', 'test'}
>>> s3.discard("test")
>>> print(s3)
{'b', 123, 'a'}

remove()与discard()的区别

>>> s3= {'a','b',123,'test'}
>>> print(s3)
{'b', 123, 'a', 'test'}
>>> s3.discard("test")
>>> print(s3)
{'b', 123, 'a'}
>>> s3= {'a','b',123,'test'}
>>> print(s3)
{'b', 123, 'a', 'test'}
>>> s3.discard("test")
>>> print(s3)
{'b', 123, 'a'}

所实现的目的与remove一样,区别在于如下所示:

>>> s3= {'a','b',123,'test'}
>>> print(s3)
{'b', 123, 'a', 'test'}
>>> s3.discard("5")
>>>

运行结果:无

而remove()的结果如下所示:

>>> s3= {'a','b',123,'test'}
>>> print(s3)
{'b', 123, 'a', 'test'}
>>> s3.remove("5")
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
KeyError: '5'>>> s3= {'a','b',123,'test'}
>>> print(s3)
{'b', 123, 'a', 'test'}
>>> s3.remove("5")
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
KeyError: '5'

remove与discard的区别在于,remove在删除指定的元素时,如果此元素不在set中,则就会出错,如果是discard删除,不存在此元素时,则不返回任何值。

clear()清除所有元素

clear()方法清空集合中的所有元素,如下所示:

>>> s3= {'a','b',123,'test'}
>>> print(s3)
{'b', 123, 'a', 'test'}
>>> print(bool(s3)) #有元素,则返回True
True
>>> s3.clear()
>>> print(s3)
set()
>>> print(bool(s3)) # 无元素返回False
False

集合冻结

frozenset() 返回一个冻结的集合,冻结后集合不能再添加或删除任何元素。

>>> s4 = frozenset("test000")
>>> print(s4)
frozenset({'0', 's', 'e', 't'})
>>> s4.add("python")
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
AttributeError: 'frozenset' object has no attribute 'add'

集合的运算

判断两个集合的从属关系

in():元素与集合的关系可以用in来进行判断,如下所示:

>>> s5 = {"123","678",432,'123',"test"}
>>> print(s5)
{432, '678', '123', 'test'}
>>> print("123" in s5) # "123"是否在集合s5中
True
>>> print("123--" in s5) # "123---"是否在集合s5中
False

集合与集合的关系

集合与集合的关系可以用==,!=,>,<,issuperset,issubset来表示,如下所示:

>>> s5 = {"123","678",432,'123',"test"}
>>> print(s5)
{432, '678', '123', 'test'}
>>> s6 = {"543",123,993,"test001"}
>>> print(s6)
{'test001', 993, 123, '543'}
>>> s7 = {"123","test"}
>>> print(s7)
{'123', 'test'}
>>> print(s5 == s6) # s5是否与s6等同
False
>>> print(s5 != s6) # s5是否与s6等同
True
>>> print(s7 < s5) # s7是否是s5的子集
True
>>> print(s7.issubset(s5)) # s7是否是s5的子集
True
>>> print(s5.issuperset(s7)) # s5是否是s7的超集
True

集合求并集(|)

>>> s5 = {"123","678",432,'123',"test"}
>>> print(s5)
{432, '678', '123', 'test'}
>>> s6 = {"543",123,993,"test001"}
>>> print(s6)
{'test001', 993, 123, '543'}
>>> s7 = {"123","test"}
>>> print(s7)
{'123', 'test'}
>>> print(s5|s6) # 求s5和s6的并集
{993, 'test001', '543', '123', 432, '678', 'test', 123}
>>> print(s5.union(s7)) # 求s5和s7的并集
{432, '678', 'test', '123'}

集合求交集(&)

>>> s5 = {"123","678",432,'123',"test"}
>>> print(s5)
{432, '678', '123', 'test'}
>>> s6 = {"543",123,993,"test001"}
>>> print(s6)
{'test001', 993, 123, '543'}
>>> s7 = {"123","test"}
>>> print(s7)
{'123', 'test'}
>>> print(s5 & s6) # 求s5和s6的交集
set()
>>> print(s5.intersection(s7)) # 求s5和s7的交集
{'123', 'test'}

集合求差集(-

差集如下所示:

[图片上传失败...(image-6cc778-1551584660663)]

代码为:

>>> s5 = {"123","678",432,'123',"test"}
>>> print(s5)
{432, '678', 'test', '123'}
>>> s6 = {"543",123,993,"test001"}
>>> print(s6)
{993, 'test001', 123, '543'}
>>> s7 = {"123","test"}
>>> print(s7)
{'test', '123'}
>>> print(s5 - s6) # 求s5和s6的差集
{432, '678', 'test', '123'}
>>> print(s5.difference(s7)) # 求s5和s7的差集
{432, '678'}

集合的对称差集()

对称差集示意图如下所示:

[图片上传失败...(image-eb39e8-1551584660663)]

代码为:

>>> s5 = {"123","678",432,'123',"test"}
>>> s8 = {"123","test",9999}
>>> print(s5.symmetric_difference(s8)) # 求s5和s7的对称差集
{9999, 432, '678'}

集合推导式

Python支持集合推导式,集合推导式使用的是大括号,如下所示:

>>> squared = {x**2 for x in [1, 1, 2]}
>>> print(squared)
{1, 4}

再看另外一个案例:

>>> {x.strip() for x in (' he ', 'she ', ' I')}
{'I', 'he', 'she'}
>>>
>>> import random
>>> x = {random.randint(1,500) for i in range(100)}
>>> # 生成随机数,自动去除重复元素
... len(x)
94
>>> {str(x) for x in range(10)}
{'2', '5', '6', '0', '4', '7', '9', '8', '3', '1'}
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,386评论 6 479
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,939评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,851评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,953评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,971评论 5 369
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,784评论 1 283
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,126评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,765评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,148评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,744评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,858评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,479评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,080评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,053评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,278评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,245评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,590评论 2 343

推荐阅读更多精彩内容