集合 (Set) | 一山不容二虎的 Python 数据类型

前言

文章首发于微信公众号:可乐python说

Hi,大家好,我是可乐, 今天介绍一下 Python 集合 的相关知识,并附上相应的案例代码,便于学习、吸收。

集合简介

集合 (Set) 是 Python 中基本数据结构之一,与数学中的集合概念类似但又存在一定差异,集合中的元素唯一、且无序存储。

集合使用大括号 - {} 包裹,元素之间使用逗号 - 分隔,集合中的元素可以是字符串、数字、列表、集合等其他任何不可变数据类型。

集合不支持索引、嵌套,也没有切片操作,但支持更新、删除等操作,并且可进行 并集交集差集 等常见的集合操作,下面我们通过案例来学习。

集合初体验

1、使用 set() 方法定义一个空集合。

>>> def_set = set()
>>> def_set
set()
# type 查看数据类型
>>> type(def_set)  
<class 'set'>

2、使用 {}定义一个非空集合 。

# 之前介绍过 {} 用于定义空字典
# 故 {} 只可定义非空集合,即定义时初始化数据
>>> def_set = {"kele", "python"}
>>> def_set
{"kele", "python"}
# type 查看数据类型
>>> type(def_set) 
<class 'set'>

3、集合特性之元素唯一,且元素只能是不可变类型数据。

>>> def_set = {"kele", "python", "kele"}
>>> def_set
{'kele', 'python'}
# 集合元素包含可变类型会报错
>>> def_set = {"kele",[]}
Traceback (most recent call last):
  File "<input>", line 1, in <module>
TypeError: unhashable type: 'list'

4、集合特性之元素无序存储

>>> def_set = set(["1", "2", "3"])
# 元素为无序存储
>>> def_set
{'1', '3', '2'}

5、集合特性之不可通过索引获取元素,但可通过 for 循环获取。

>>> def_set = {"kele", "python"}
>>> def_set[0]
# 因集合是无序的,所以不能使用索引访问
Traceback (most recent call last):
  File "<input>", line 1, in <module>
TypeError: 'set' object does not support indexing
# 使用 for 循环获取集合元素
>>> for set_element in def_set:
        print(set_element)
kele
python

6、使用 innot in 判断元素是否在集合中,是则返回 True , 否则返回 False

>>> def_set = ("kele", "python")
>>> "kele" in def_set
True
>>> "python" not in def_set
False

基础方法

集合基础方法可参照下表:

方法 说明
len(set) 计算集合元素数量
max(set) 返回集合中最大的元素
min(set) 返回集合中最小的元素
type(set) 查看数据类型
set(iterable) 将可迭代对象转换为集合

1、使用 len 方法计算集合数量。

>>> def_set = {68, 8, 168}
>>> len(def_set)
3

2、使用 max 方法,返回集合中最大的元素。

>>> def_set = {68, 8, 168}
>>> max(def_set)
168

3、使用 min 方法,返回集合中最小的元素。

>>> def_set = {68, 8, 168}
>>> min(def_set)
8

4、使用 type 方法查看数据类型。

>>> def_set = {"kele","python"}
>>> type(def_set)
<class 'set'>

5、使用 set 方法将可迭代对象转换为集合。

>>> def_set = set(["kele", "python"])
>>> def_set
{'kele', 'python'}
>>> type(set(def_set))
<class 'set'>

内置方法

Python 中的 set 类提供了集合操作相关的内置方法,集合中还提供了部分操作符号与之对应,下面按照类中方法定义的顺序演示。

集合内置函数与集合操作符对于关系可参照下表:

方法 符号 说明
difference - 计算差集
intersection & 计算交集
issubset < 子集判断
symmetric_difference ^ 计算对称差集
union | 计算并集

1、使用 add 方法,给集合添加元素,若元素已存在,不做任何操作。

# 使用语法:set.add(obj)
# 必须给定 obj 参数
>>> def_set = {"kele","python"}
>>> def_set.add("kele")

# 元素已存在,不做任何操作
>>> def_set
{'python', 'kele'}
>>> def_set.add("xuebi")
>>> def_set
>>> {'xuebi', 'python', 'kele'}

2、使用 clear 方法清空集合。

# 使用语法:set.clear()
>>> def_set = {"kele","python"}
>>> def_set.clear()
>>> def_set
set()

3、使用 copy 方法 浅拷贝 复制一个新集合。

# 使用语法:set.copy()
>>> def_set = {"kele","python"}
>>> def_set.copy()
{'kele', 'python'}

4、使用 difference 方法,计算两个集合的差集,返回一个新集合,与集合运算符 - 效果相同。

# 使用语法:set1.difference(set2)
# 返回包含在 ste1 中,但不包含在 set2 中的元素
>>> def_set1 = {"kele","python"}
>>> def_set2 = {"kele","xuebi"}
>>> def_set1.difference(def_set2)
{'python'}

# 使用减号运算符计算两个集合的差值
>>> def_set1 - def_set2
{'python'}
# 也可使用集合一 减去 集合一与集合二的交集(后面会介绍)
>>> def_set1 - def_set2 & def_set1
{'python'}

5、使用 difference_update 方法,计算两个集合的差集,并直接从 def_set1 中移除两个集合都存在的元素。

# 使用语法:set1.difference_update(set2)
# 无返回值,直接从 def_set1 中移除两个集合都存在的元素
>>> def_set1 = {"kele","python"}
>>> def_set2 = {"kele","xuebi"}
>>> def_set1.difference_update(def_set2)
# 可以发现,已经移除了 "kele"
>>> def_set1
{'python'}

6、使用 discard 方法,删除集合中指定的元素,元素不存在也不会报错。

# 使用语法:set.discard(obj)
>>> def_set = {"kele","python"}
# 无返回值
>>> def_set.discard("kele")
>>> def_set1
{'python'}
# 元素不存在时不报错,不做任何操作
>>> def_set.discard("xuebi")

7、使用 intersection 方法,计算多个集合的交集,与集合运算符 & 效果相同。

# 使用语法:set1.intersection(set2,set3,...)
# 返回 set1、set2 的交集
>>> def_set1 = {"kele","python"}
>>> def_set2 = {"kele","xuebi"}
>>> def_set1.intersection(def_set2)
{'kele'}

# 返回 set1、set2、set3 的交集
>>> def_set3 = {"kele","tea"}
>>> def_set1.intersection(def_set2, def_set3)
{'kele'}

# 也可使用交集运算符计算集合的差值
>>> def_set1 & def_set2
{'kele'}
>>> def_set1 & def_set2 & def_set3
{'kele'}

8、使用 intersection_update 方法,计算多个集合的交集,并直接从 def_set1 中删除所有集合中都不重叠的元素。

# 使用语法:set1.intersection_update(set2,set3,...)
# 返回 set1、set2 的交集
>>> def_set1 = {"kele","python"}
>>> def_set2 = {"kele","xuebi"}
# 无返回值
>>> def_set1.intersection_update(def_set2)
# 已从 def_set1 中删除 "python"
>>> def_set1
{'kele'}
>>> def_set1.intersection(def_set2, def_set3)
{'kele'}

# 也可使用交集运算符计算集合的差值
>>> def_set1 & def_set2
{'kele'}
>>> def_set1 & def_set2 & def_set3
{'kele'}

9、使用 isdisjoint 方法,判断两个集合是否不包含相同的元素,是则返回 False ,否则返回 True

# 使用语法:set1.isdisjoint(set2)
>>> def_set1 = {"kele","python"}
>>> def_set2 = {"kele","xuebi"}
>>> def_set1.isdisjoint(def_set2)
False

>>> def_set3 = {"xuebi"}
>>> def_set1.isdisjoint(def_set3)
True

10、使用 issubset 方法,判断 set1 是否是 set2 的子集,是则返回 True ,否则返回 False

# 使用语法:set1.issubset(set2)
>>> def_set1 = {"kele"}
>>> def_set2 = {"kele","xuebi"}
# def_set1 是 def_set2 的子集
>>> def_set1.issubset(def_set2)
True

# def_set3 不是 def_set2 的子集
>>> def_set3 = {"xuebi"}
>>> def_set1.issubset(def_set3)
False

11、使用 issuperset 方法,判断 set1 是否是 set2 的 超集 ,可理解为父集,是则返回 True ,否则返回 False

# 使用语法:set1.issuperset(set2)
>>> def_set1 = {"kele","xuebi"}
>>> def_set2 = {"kele"}
# def_set1 是 def_set2 的父集
>>> def_set1.issuperset(def_set2)
True

# def_set1 不是 def_set3 的父集
>>> def_set3 = {"kele","python"}
>>> def_set1.issuperset(def_set3)
False

12、使用 pop 方法,删除并返回集合中任意元素。

# 使用语法:set.pop()
>>> def_set = {"kele","python"}
>>> def_set.pop()
'kele'
>>> def_set.pop()
'python'

# 空集合调用会报错
>>> def_set.pop()
Traceback (most recent call last):
  File "<input>", line 1, in <module>
KeyError: 'pop from an empty set'

13、使用 remove 方法,删除集合中某一元素。

# 使用语法:set.remove(obj)
>>> def_set = {"kele","python"}
# 无返回值
>>> def_set.remove("kele")
>>> def_set
{'python'}

# 元素不存在时会报错
>>> def_set.remove("xuebi")
Traceback (most recent call last):
  File "<input>", line 1, in <module>
KeyError: 'xuebi'

14、使用 symmetric_difference 方法,删除两个集合中相同的元素,再取并集,即 对称差集 ,与集合运算符 ^ 效果相同。

# 使用语法:set1.symmetric_difference(set2)
>>> def_set1 = {"kele","python"}
>>> def_set2 = {"kele","xuebi"}
# 先删除 kele ,再取并集
>>> def_set1.symmetric_difference(def_set2)
{'xuebi', 'python'}

# 也可使用运算符 ^ 计算集合的对称差
>>> def_set1 ^ def_set2
{'xuebi', 'python'}

15、使用 symmetric_difference_update 方法,取两个集合的对称差值,并在set1 中删除两个集合中相同的元素 。

# 使用语法:set1.symmetric_difference_update(set2)
>>> def_set1 = {"kele","python"}
>>> def_set2 = {"kele","xuebi"}
# 无返回值
>>> def_set1.symmetric_difference_update(def_set2)
>>> def_set1
{'python', 'xuebi'}

16、使用 union 方法,取多个集合的并集,与集合运算符 | 效果相同。

# 使用语法:set1.union(set2,set3,...)
# 返回 set1、set2 的并集
>>> def_set1 = {"kele","python"}
>>> def_set2 = {"kele","xuebi"}
>>> def_set1.union(def_set2)
{'python', 'kele', 'xuebi'}

# 返回 set1、set2、set3 的并集
>>> def_set3 = {"tea","xuebi"}
>>> def_set1.union(def_set2, def_set3)
{'kele', 'xuebi', 'python', 'tea'}

# 也可使用并集运算符计算集合的并集
>>> def_set1 | def_set2
{'python', 'kele', 'xuebi'}
>>> def_set1 | def_set2 | def_set3
{'kele', 'xuebi', 'python', 'tea'}

17、使用 update 方法,添加新的元素或集合到当前集合中,重复的元素会被忽略。

# 使用语法:set1.update(set2)
# 添加列表元素到当前集合中
>>> def_set1 = {"kele","python"}
# 无返回值
>>> def_set1.update(["tea", "xuebi"])
>>> def_set1
{'xuebi', 'python', 'tea', 'kele'}

# 添加集合元素到当前集合中
>>> def_set1 = {"kele","python"}
>>> def_set2 = {"tea","xuebi"}
# 无返回值
>>> def_set1.update(def_set2)
>>> def_set1
{'xuebi', 'python', 'tea', 'kele'}

集合应用

1、使用集合对字符串进行去重。

>>> def_str = "Hikelepython"
>>> def_set = set(def_str)
>>> def_set
{'l', 'h', 't', 'p', 'o', 'H', 'n', 'e', 'i', 'k', 'y'}
# 使用 join 方法连接字符串,这里暂时不考虑顺序
>>> "".join(def_set)
'lhtpoHneiky'

2、使用集合对列表进行去重。

>>> def_list = ["k", "e", "l", "e"]
>>> def_set = set(def_list)
>>> def_set
{'k', 'l', 'e'}
# 将集合转换成列表
>>> list(def_set)
['k', 'l', 'e']

3、使用集合对元组进行去重。

>>> def_tuple = ("k", "e", "l", "e")
>>> def_set = set(def_tuple)
>>> def_set
{'k', 'l', 'e'}
# 将集合转换成元组
>>> tuple(def_set)
('k', 'l', 'e')

总结

  1. Python 中的集合,因其元素唯一的特性,常用于数据的去重,当然,它也可用于数学集合的相关计算。
  2. 定义集合可使用 set() 方法,但不能使用 {} ,因为大括号定义的是一个空字典,集合的元素只能为不可变数据类型。
  3. 集合的内置方法中,部分有操作符与之对应,使用时可自行选择。
  4. 集合的内置方法中,有几组方法的效果需要做一下区分。
    • difference 与 difference_update,求差集
    • intersection 与 intersection_update,求交集
    • symmetric_difference 与 symmetric_difference_update,求对称差集
    • 以上几组方法的区别均在于,后者会直接操作原始集合
  5. 文中难免会出现一些描述不当之处(尽管我已反复检查多次),欢迎在留言区指正,也可分享集合相关的知识。
  6. 原创文章已全部更新至 Github:https://github.com/kelepython/kelepython
  7. 本文永久博客地址:https://kelepython.readthedocs.io/zh/latest/c01/c01_07.html
  8. 为了便于沟通交流,我已创建微信学习交流群,欢迎在后台回复 加群 加入我们。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,884评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,755评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,369评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,799评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,910评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,096评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,159评论 3 411
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,917评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,360评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,673评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,814评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,509评论 4 334
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,156评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,882评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,123评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,641评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,728评论 2 351