day17-总结

re中主要通过正则相关的方法

import re

1.什么是正则

正则是字符串匹配的一种工具，拥有自己的语法。语法中主要是包含各种符号的使用

2.正则语法

re.fullmatch(正则表达式，字符串) - 检查字符串是否完全符合正则表达规则(完全匹配)；匹配成功，返回匹配对象，匹配失败，返回None

正则表达式 - python中的正则表达式是写在引号中(可以是单引号也可以是双引号)，但是一般情况下会在引号前面加r - (r'正则表达式')

(1)普通字符 - 除了正则中有特殊功能和特殊意义以外的其他所有字符

例如：a, b, c, 1, 你，......
普通字符在正则中表示字符本身

表示一个字符串有3个字符，每个字符分别是a, b, c
re_str = r'abc'
result = re.fullmatch(re_str, 'abc')
print(result)

(2) . - 匹配任意字符

正则中出现.的位置可以匹配任意字符,一个.只能匹配一个任意字符

# 匹配一个长度是3的字符串，字符串开头是a，结尾是b，中间一个任意字符
re_str = r'a.b'
result = re.fullmatch(re_str, 'a0b')
print(result)

(3)\w - 匹配数字，字母或者下划线(只针对ASCII码有效)

一个\w只能匹配一个字符
注意：Unicode码中除了ASCII码表以外的其他字符都能匹配

re_str = r'a\wb.'
result = re.fullmatch(re_str, 'a9b9')
print(result)

(4) \s - 匹配一个空白字符

空白：空格，回车/换行，制表符

result = re.fullmatch(r'abc\s123', 'abc\t123')
print(result)

(5) \d - 匹配一个数字字符

result = re.fullmatch(r'a\d\db', 'a99b')
print(result)

(6) \大写字母 - 匹配非\小写字母匹配到的内容

\W - 匹配非数字，字母，下划线
\S - 匹配非空白字符
\D - 匹配非数字字符

(7) [] - 匹配字符集

a.普通用法：
[字符集] - 匹配字符集中的任意一个字符
例：[az1+] - 匹配一个字符是a或者z或1或+
[\dabc] - 匹配一个字符是数字或者a或者b或者c

b.表示范围的字符集: [字符1-字符2] - 从字符1到字符2中的任意一个字符
注意：字符2的编码值必须大于字符1
[5-9] - 匹配数字字符5到9的一个
[a-z] - 匹配小写字母a到z的一个
[a-zA-Z] - 匹配任意一个字母
[a-zA-Z\d_] - 匹配字母数字下划线

c.反向选中：[^字符集] - 选中除了字符集中以外的其他的任意一个字符

print(re.fullmatch(r'[a-zA-Z\d_][A-Z]abc', '9Rabc'))

一个匹配符号必须对应一个具体的字符；检测符号只是对符号所在的位置进行检查，不会影响字符串长度

(1) \b - 检测是否是单词边界

单词边界：一个可以将两个单词区分开的符号都是单词边界，例如：单词开头，单词结尾，空白标点符号等

匹配一个字符串是'howare'，然后检查w的后面是否是单词边界

print(re.fullmatch(r'how\b are', 'how are'))

(2) ^ - 检查 ^ 所在的位置是否是字符串开头

print(re.fullmatch(r'^abc', 'abc'))  # 等同于print(re.fullmatch(r'abc', 'abc'))

(3) $- 检查$ 所在的位置是否是字符串结尾

print(re.fullmatch(r'abc$', 'abc'))  # 等同于print(re.fullmatch(r'abc', 'abc'))

1.匹配次数

(1) * - 匹配0次或多次

字符* - 前的字符出现0次或多次
例：r'a' - '','a','aa','aaa',...
r'\d' - '','1','2','112','22434'
r'[abc]' - '','a','ab','abbc','aaccbb'

print(re.fullmatch(r'a\d*b', 'a975935835b'))

(2) + -- 匹配1次或多次

print(re.fullmatch(r'a\db', 'ab'))  # None

(3) ? - 匹配0次或1次

print(re.fullmatch(r'[+-]?\d+', '293'))

(4) {}

{N} - 匹配N次
{M, N} - 匹配M到N次
{M,} - 匹配至少M次
{,N} - 最多匹配N次

print(re.fullmatch(r'a{3}123', 'aaa123'))
print(re.fullmatch(r'a{2,5}123', 'aaa123'))
print(re.fullmatch(r'\d{3,}', '394292944242'))
print(re.fullmatch(r'\d{,5}', ''))

2.贪婪和非贪婪

,+,?,{}对应匹配次数是贪婪的；在匹配次数不确定的时候才有贪婪和非贪婪的区分
在匹配次数不确定的符号后面加?问号，就会变为非贪婪：?, +?, ??, {M,N}?, {M,}?, {,N}?

贪婪：在匹配成功的前提下，尽可能多的匹配
非贪婪：在匹配成功的前提下，尽可能少的匹配

3.| - 分之

正则表达式1 | 正则表达式2

4. () - 分组

1.分组 - 将正则中的一部分看做一个整体进行操作
2.重复 - 添加分组后，可以在分组的后面通过\M来重复前面第M个分组匹配到的结果

print(re.fullmatch(r'(\d+)abc\1', '100abc100'))

5.转义符号 - 在正则符号前加 \ ，让符号功能消失

正则中的转义符号和字符串的转义字符是两回事

独立的特殊符号放在[]中特殊意义会自动消失，但是除了：-,[]

re_str = r'\.abc'
print(re.fullmatch(re_str, '.abc'))

1.创建正则对象

compile(正则表达式) - 根据正则表达式创建正则对象

2.匹配

fullmatch(正则表达式，字符串) - 让整个字符串与正则表达式进行匹配
match(正则表达式，字符串) - 匹配字符串开头

返回值：匹配成功是匹配结果对象，匹配失败是None

result = re.match(r'(\d{3})([a-z]{2})', '945sdfjsfk-----+++')
print(result)

匹配结果

(1)匹配结果对应的字符串

匹配对象.group() - 获取整个正则匹配到的结果
匹配对象.group(N) - 获取第N个分组匹配到的结果

print(result.group())
print(result.group(1))  # 取第一个分组的结果
print(result.group(2))  # 取第2个分组的结果

(2)获取匹配位置

匹配对象.span(group=0)
匹配对象.start(group=0)
匹配对象.end(group=0)

print(result.span(1))  # 取第一个分组的位置
print(result.start(1))
print(result.end(1))

(3)获取原字符串

print(result.string)

3.查找

search(正则表达式，字符串) - 匹配出字符串中第一个满足正则表达式的子串，结果是匹配对象

findall(正则表达式，字符串) - 获取字符串中所有满足正则表达式的子串，结果是列表，列表中的元素是字符串

finditer(正则表达式，字符串) - 获取字符串中满足正则表达式的所有的子串，结果是迭代器，迭代器的元素是匹配对象

result = re.search(r'\d{3}', 'sfsfjsf,43,fsfsfsf3435,dgsg5433')
print(result)
result = re.findall(r'\d{3}', 'sfsfjsf,43,fsfsfsf3435,dgsg5433')
print(result)

result = re.findall(r'(\d{3})a', 'sfsfjsf,43,fsfsfsf3435a,dgsg543a3')
print(result)

result = re.finditer(r'(\d{3})a', 'sfsfjsf,43,fsfsfsf3435a,dgsg543a3')
print(result)
print(next(result))

4.切割

split(正则表达式，字符串) - 按照满足正则表达式的子串对字符串进行切割，返回列表

str1 = 'aaabbbsssjfsfjjdjkkdjjkfi9dsfs99fsf83rsf743jdf'
print(re.split(r'\d+', str1))

5.替换

sub(正则表达式，字符串1，字符串2，替换次数=0) - 将字符串2中满足正则表达式的子串替换成字符串1,替换次数为0的时候全部替换

str1 = 'aaabbbsssjfsfjjdjkkdjjkfi9dsfs99fsf83rsf743jdf'
new_str = re.sub(r'\d+', '+', str1)
print(new_str)

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 218,525评论 6赞 507
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,203评论 3赞 395
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 164,862评论 0赞 354
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,728评论 1赞 294
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,743评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,590评论 1赞 305
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,330评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,244评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,693评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,885评论 3赞 336
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,001评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,723评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,343评论 3赞 330
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,919评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,042评论 1赞 270
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,191评论 3赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,955评论 2赞 355