正则表达式
1.什么是正则表达式
正则表达式是处理字符串的工具,通过不同的正则符号来描述字符串的规则
2.正则表达式:r'真正语法'
3.正则符号(正则表达式的语法)
1)普通字符:除了在正则中有特殊的功能和意义的符号以外都是普通字符
a.普通字符代表字符本身
. - 匹配任意字符(一个.只能匹配一个字符)
\w - 匹配一个 数字、字母或者_(在ASCII中使用)
\d - 匹配任意一个数字字符
\s - 匹配任意一个空白字符(回车,换行,空格,制表符(\t))
\D - 匹配出数字外的任意字符
\S - 匹配一个非空白字符
\大写字母 - 大写字符匹配与 \小写 的相反
[字符集] - 匹配字符集出现的任意一个字符(一个中括号只能匹配任意一个字符)
[1-9] - 匹配1-9中的任意字符(字符编码值递增)
[a-zA-Z] - 匹配任意一个字母
[\u4e00-\u9fa5] - 匹配任意一个中文
[^字符集] - 匹配不在字符集中的任意字符
2)检测字符
\b - 检查是否是单词边界()
单词边界:能够将两个单词隔开并且不会产生任何歧义的符号如:空白字符,标点符号,包括开头和结尾
匹配规则:先去掉\b对字符串进行匹配,如果匹配成功再检查\b所在的位置是否在单词边界
^ - 检查^所在的位置是否是字符串开头
注意^在中括号外面
$ - 检查$所在的位置是否是字符串的结尾
3)控制次数的符号
* - 匹配0次或者多次
1b2a* - 1b2后面a出现0次或者多次
1b2\d* - 1b2后面出现0个或者多个数字字符
+ - 匹配1次或多次
? - 匹配0次或1次
{N} - 匹配N次
a{3} - 匹配3个a
\d{3} - 匹配三个数字
{M,N} - 匹配M到N次(至少M次,最多N次)
{M,} - 至少匹配M次
{,N} - 最多N次
贪婪和非贪婪:
在匹配次数不确定的时候,或出现贪婪和非贪婪两种情况;默认情况下都是贪婪的。
什么是贪婪:在能够匹配成功的前提下,匹配次数尽可能多
什么是非贪婪:在能够匹配成功的前提下,匹配次数尽可能少(在匹配次数后加问号)
4)分支
正则1 | 正则2 - 先让正则1去匹配如果匹配成功就成功,匹配失败就让正则2区匹配
5)分组
a.分组截取:方便后买面分段或者分情况去不同匹配结果
b.分组重复:在正则中用\X来重复前面第X个分组的内容
注意:\X前面必须有这个分组
() - 将括号内的内容作为一个整体
r'(\d{2}|[A-Z]{2})abc' - 匹配一个字符后面是abc,前面是2个数字或2个字母
r'([a-z]\d){3}'
6)转义
a.加\
在正则中有特殊功能和特殊意义的符号前加\,让这个符号的特殊功能和特殊意义消失
b.加[]
在[]中有特殊意思的符号:^放在开头;-放在两个符号之间;而.+?*$这些单独的符号在[]中就是符号本身
# 匹配一个字符串长度为8,前三个字符是abc,后三个字符是123,中间是两个任意字符
re_str = r'abc..123'
result = fullmatch(re_str, 'abcer123')
print(result)
# 匹配一个长度为4的字符串
re_str = r'\wabc'
# 匹配一个长度是5的字符串,前两个是任意数字,后面三个是任意字符
re_str = r'\d\d...'
# 匹配一个长度为4的字符,第一个字符是1或者3或者7
re_str = r'[137]...'
re_str = r'(\d{3})[a-z]{3}'
print(findall(re_str, '123sdsdf胜多负少的方式12sd1234sdsfd'))
re_str = r'(\d{3})[a-z]{3}\1'
print(fullmatch(re_str, '345hgf345'))
re模块
re模块是Python提供的,专门针对正则表达式相关的函数
1.字符串匹配
1)fullmatch(正则表达式,字符串) -> 让正则表达式和字符串完全匹配
2)match(正则表达式,字符串) -> 匹配字符串开头
以上两个方法的结果:失败就是None,匹配成功就会返回匹配对象
匹配对象:
a.获取匹配到的字符串
匹配对象.group() - 获取整个正则表达式匹配到的字符串
b.获取匹配到的字符串在原字符中的位置信息
匹配对象.span() -> 返回匹配结果在原字符串的下标范围[]
匹配对象.span(N) -> 返回第N个分组匹配到的结果在原字符串的下标范围[]
c.获取原字符串
匹配对象.string
3)search(正则表达式,字符串) - 在字符串中查到第一满足正则表达式的字串,如果找到了结果是匹配对象,否则是None
4)findall(正则表达式,字符串) - 获取字符串中所有满足正则表达式的字串;返回值是一个列表
注意:如果正则表达式中有分组,列表中的匹配结果只会有分组匹配的内容
5)finditer(正则表达式,字符串) - 获取字符串中所有满足正则表达式的字串:返回值是一个迭代器,元素是匹配对象
6)split(正则表达式,字符串) - 在字符串中满足正则表达式的字串做为切割点对字符进行切割;返回一个字符串列表
7)sub(正则表达式,字符串1,字符串2) - 将字符串2中所有满足正则表达式的字串替换成字符串1