集合的定义
集合是无序可变序列,使用一对大括号(这一点和字典比较类似)作为界定符,元素之间使用逗号分隔,同一个集合内的每个元素都是唯一的,元素之间不允许重复。
集合的英文是set,其特点是:
- 有的可变,有的不可变;元素无次充,不可重复。
- 元组(tuple)是列表(list)和字符串(str)的杂合,集合(set)是list和dict的杂合。
- 集合用
{}
来定义 ,其中的元素没有序列,并且集合中的元素不可重利,类似于dict的键。 - 集合可以在原处修改。
集合的创建
使用set()进行创建
可以使用set()直接创建集合,如下所示:
>>> s1 = set("qiwsir")
>>> print(s1)
{'s', 'i', 'r', 'q', 'w'}
>>> print(type(s1))
<class 'set'>
从结果可以看出,qiwsir中有两个i,但在s1中则只有一个i,即集合中的元素不能重复,如果原来的数据中存在重复的元素,则转换为集合时就只保留一个,再看一个案例:
>>> s2 = set([123,"google","face","book","facebook","book"])
>>> print(s2)
{'google', 123, 'book', 'face', 'facebook'}
从结果可以看出,创建集合的时候与显示集合的时候,元素的顺序不同,这说明集合中的元素没有顺序。再看一案例:
>>> s1 = set("qiwsir")
>>> print(s1)
{'s', 'i', 'r', 'q', 'w'}
>>> s1[1] = ["I"]
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
TypeError: 'set' object does not support item assignment
>>> print(s1)
{'s', 'i', 'r', 'q', 'w'}
这说明,集合不是序列类型,不能用索引方式对其进行修改。
直接使用大括号创建集合
>>> a = {3, 5}
>>> a
{3, 5}
>>> type(a)
<class 'set'>
集合中只能包含数字、字符串、元组等不可变类型(或者说可哈希)的数据,而不能包括列表、字典、集合等可变类型的数据。python提供了一个内置函数hash()来计算对象的哈希值,凡是无法计算哈希值(调用hash()函数时抛出异常)的对象都不能作为集合的元素,也不能作为字典对象的“键”。
集合的转换
类型名称函数能够实现类型的转换,例如str()可以将对象转化为字符串,用list()和set()能够将集合和列表进行转换,如下所示:
>>> s1 = set("qiwsir")
>>> print(s1)
{'s', 'i', 'r', 'q', 'w'}
>>> lst = list(s1)
>>> print(lst)
['s', 'i', 'r', 'q', 'w']
>>> lst[1] = "I"
>>> print(lst)
['s', 'I', 'r', 'q', 'w']
集合元素的添加
集合元素的添加使用add()
方法,如下所示:
>>> a_set = {'a',"i","1",1} #创建集合
>>> print(a_set)
{'i', '1', 'a', 1}
>>> print(type(a_set)) #查看对象的类型
<class 'set'>
>>> a_set.add("qiwsir") # 添加一个元素
>>> print(a_set)
{1, 'a', 'i', '1', 'qiwsir'}
>>>
>>> b_set = set("python")
>>> print(type(b_set))
<class 'set'>
>>> print(b_set)
{'h', 'o', 'y', 't', 'n', 'p'}
>>> b_set.add("test")
>>> print(b_set)
{'h', 'o', 'y', 'test', 't', 'n', 'p'}
合并集合
update()方法用于合并另外一个集合的元素到当前集合中,如下所示:
>>> s1 = {'a','b'}
>>> print(s1)
{'a', 'b'}
>>> s2 = {'github','qiwsir'}
>>> print(s2)
{'qiwsir', 'github'}
>>> s1.update(s2)
>>> print(s1)
{'github', 'qiwsir', 'a', 'b'}
集合的运行
字典和集合的in操作比列表快很多。因为python字典和集合使用hash表来存储元素,因此元素查找操作非常快,这就直接决定了关键字in作用于字典和集合时比作用于列表要快得多,看一个案例:
import random
import time
x = list(range(10000))
# 生成列表
y = set(range(10000))
# 生成集合
z = dict(zip(range(1000),range(10000)))
# 生成字典
r = random.randint(0,9999)
# 生成随机数
start = time.time()
for i in range(9999999):
r in x
print('list, time used: ',time.time() - start)
start = time.time()
for i in range(9999999):
r in y
print('set, time used: ',time.time() - start)
start = time.time()
for i in range(999999999):
r in z
print('dict, time used: ',time.time() - start)
运行结果如下所示:
C:\Users\20161111>python a.py
list, time used: 1369.371190071106
set, time used: 1.289543867111206
dict, time used: 95.13067197799683
删除set中的元素
pop()函数
pop()随机删除并返回集全中的一个元素,如果集合为空,则抛出异常,如下所示:
>>> s3= {'a','b',123,'test'}
>>> print(s3)
{'b', 123, 'a', 'test'}
>>> s3.pop()
'b'
>>> print(s3)
{123, 'a', 'test'}
remove()方法
remove()方法用于删除集合中的元素,如果指定元素不存在,就抛出异常,如下所示:
>>> s3= {'a','b',123,'test'}
>>> print(s3)
{'b', 123, 'a', 'test'}
>>> s3.remove("test")
>>> print(s3)
{'b', 123, 'a'}
discard()方法
discard()方法用于从集合中删除一个特定的元素,如果元素不在集合中,则忽略该操作,如下所示:
>>> s3= {'a','b',123,'test'}
>>> print(s3)
{'b', 123, 'a', 'test'}
>>> s3.discard("test")
>>> print(s3)
{'b', 123, 'a'}
remove()与discard()的区别
>>> s3= {'a','b',123,'test'}
>>> print(s3)
{'b', 123, 'a', 'test'}
>>> s3.discard("test")
>>> print(s3)
{'b', 123, 'a'}
>>> s3= {'a','b',123,'test'}
>>> print(s3)
{'b', 123, 'a', 'test'}
>>> s3.discard("test")
>>> print(s3)
{'b', 123, 'a'}
所实现的目的与remove一样,区别在于如下所示:
>>> s3= {'a','b',123,'test'}
>>> print(s3)
{'b', 123, 'a', 'test'}
>>> s3.discard("5")
>>>
运行结果:无
而remove()的结果如下所示:
>>> s3= {'a','b',123,'test'}
>>> print(s3)
{'b', 123, 'a', 'test'}
>>> s3.remove("5")
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
KeyError: '5'>>> s3= {'a','b',123,'test'}
>>> print(s3)
{'b', 123, 'a', 'test'}
>>> s3.remove("5")
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
KeyError: '5'
remove与discard的区别在于,remove在删除指定的元素时,如果此元素不在set中,则就会出错,如果是discard删除,不存在此元素时,则不返回任何值。
clear()清除所有元素
clear()方法清空集合中的所有元素,如下所示:
>>> s3= {'a','b',123,'test'}
>>> print(s3)
{'b', 123, 'a', 'test'}
>>> print(bool(s3)) #有元素,则返回True
True
>>> s3.clear()
>>> print(s3)
set()
>>> print(bool(s3)) # 无元素返回False
False
集合冻结
frozenset() 返回一个冻结的集合,冻结后集合不能再添加或删除任何元素。
>>> s4 = frozenset("test000")
>>> print(s4)
frozenset({'0', 's', 'e', 't'})
>>> s4.add("python")
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
AttributeError: 'frozenset' object has no attribute 'add'
集合的运算
判断两个集合的从属关系
in():元素与集合的关系可以用in来进行判断,如下所示:
>>> s5 = {"123","678",432,'123',"test"}
>>> print(s5)
{432, '678', '123', 'test'}
>>> print("123" in s5) # "123"是否在集合s5中
True
>>> print("123--" in s5) # "123---"是否在集合s5中
False
集合与集合的关系
集合与集合的关系可以用==,!=,>,<,issuperset,issubset
来表示,如下所示:
>>> s5 = {"123","678",432,'123',"test"}
>>> print(s5)
{432, '678', '123', 'test'}
>>> s6 = {"543",123,993,"test001"}
>>> print(s6)
{'test001', 993, 123, '543'}
>>> s7 = {"123","test"}
>>> print(s7)
{'123', 'test'}
>>> print(s5 == s6) # s5是否与s6等同
False
>>> print(s5 != s6) # s5是否与s6等同
True
>>> print(s7 < s5) # s7是否是s5的子集
True
>>> print(s7.issubset(s5)) # s7是否是s5的子集
True
>>> print(s5.issuperset(s7)) # s5是否是s7的超集
True
集合求并集(|
)
>>> s5 = {"123","678",432,'123',"test"}
>>> print(s5)
{432, '678', '123', 'test'}
>>> s6 = {"543",123,993,"test001"}
>>> print(s6)
{'test001', 993, 123, '543'}
>>> s7 = {"123","test"}
>>> print(s7)
{'123', 'test'}
>>> print(s5|s6) # 求s5和s6的并集
{993, 'test001', '543', '123', 432, '678', 'test', 123}
>>> print(s5.union(s7)) # 求s5和s7的并集
{432, '678', 'test', '123'}
集合求交集(&
)
>>> s5 = {"123","678",432,'123',"test"}
>>> print(s5)
{432, '678', '123', 'test'}
>>> s6 = {"543",123,993,"test001"}
>>> print(s6)
{'test001', 993, 123, '543'}
>>> s7 = {"123","test"}
>>> print(s7)
{'123', 'test'}
>>> print(s5 & s6) # 求s5和s6的交集
set()
>>> print(s5.intersection(s7)) # 求s5和s7的交集
{'123', 'test'}
集合求差集(-
)
差集如下所示:
[图片上传失败...(image-6cc778-1551584660663)]
代码为:
>>> s5 = {"123","678",432,'123',"test"}
>>> print(s5)
{432, '678', 'test', '123'}
>>> s6 = {"543",123,993,"test001"}
>>> print(s6)
{993, 'test001', 123, '543'}
>>> s7 = {"123","test"}
>>> print(s7)
{'test', '123'}
>>> print(s5 - s6) # 求s5和s6的差集
{432, '678', 'test', '123'}
>>> print(s5.difference(s7)) # 求s5和s7的差集
{432, '678'}
集合的对称差集()
对称差集示意图如下所示:
[图片上传失败...(image-eb39e8-1551584660663)]
代码为:
>>> s5 = {"123","678",432,'123',"test"}
>>> s8 = {"123","test",9999}
>>> print(s5.symmetric_difference(s8)) # 求s5和s7的对称差集
{9999, 432, '678'}
集合推导式
Python支持集合推导式,集合推导式使用的是大括号,如下所示:
>>> squared = {x**2 for x in [1, 1, 2]}
>>> print(squared)
{1, 4}
再看另外一个案例:
>>> {x.strip() for x in (' he ', 'she ', ' I')}
{'I', 'he', 'she'}
>>>
>>> import random
>>> x = {random.randint(1,500) for i in range(100)}
>>> # 生成随机数,自动去除重复元素
... len(x)
94
>>> {str(x) for x in range(10)}
{'2', '5', '6', '0', '4', '7', '9', '8', '3', '1'}