2019-08-13 day-17总结

正则表达式

一.正则表达式（1）

from re import fullmatch

0.fullmatch
fullmatch(正则表达式, 字符串) - 查看字符串和正则表达式是否匹配，如果不匹配结果是None
正则表达式: r'正则语法'

1.什么是正则表达式
正则表达式是处理字符串的工具，通过不同的正则符号来描述字符串的规则。

2.正则符号（正则表达式的语法）

1.匹配字符

1）普通字符：除了在正则中有特殊功能和特殊意义的符号以外的字符都算普通字符
普通字符代表字符本身

匹配一个字符串有三个字符，分别是'a','b','c'

re_str = r'.bc'
result = fullmatch(re_str, '\tbc')
print(result)

2）. - 匹配任意一个字符
一个.只能匹配一个字符

匹配一个字符串长度是8,前三个是abc,后三个是123,中间是两个任意字符

re_str = r'abc..123'
result = fullmatch(re_str, 'abc-=123')
print(result)

3）\w - 匹配一个数字、字母或者下划线（在ASCII码表中）
一个\w只能匹配一个字符

匹配一个长度是4的字符串，第一个字符是数字、字母或者_，后面三个字符是'abc'

re_str = r'\wabc'
result = fullmatch(re_str, '_abc')
print(result)

4）\d 匹配任意一个数字字符

匹配一个长度是5的字符串，前两个字符是任意数字，后面三个是任意字符

re_str = r'\d\d...'
result = fullmatch(re_str, '22abc')
print(result)

5）\s - 匹配任意一个空白字符
空白字符包括:空白字符、换行字符、制表符...

print(fullmatch(r'how\sare!','how are!'))

6）\大写字母
\D - 除了数字字符以外的任意字符（匹配一个非数字字符）
\S - 匹配一个非空白字符

7）[字符集] - 匹配字符集中出现的任意一个字符
注意：一个[]只能匹配一个字符

a.
[abc]：匹配abc中任意一个字符

匹配一个长度是4的字符串，第一个字符是1或者3或者7，后面是abc

re_str = r'[137]abc'
print(fullmatch(re_str,'7abc'))

b.
注意：左边一定比右边小
[1-9] - 匹配1到9中的任意一个字符（字符编码值递增）
[a-z] - 匹配任意一个小写字母
[a-zA-Z] - 匹配任意一个字母
[a-zA-Z\d_]/[a-zA-Z0-9_] - 匹配任意一个字母、数字下划线
[ \t\n] - 匹配任意一个空白字符
[\u4e00-\u9fa5] - 匹配任意一个中文字符
re_str = r'[ \t\n]'
print(fullmatch(re_str,''))

8）[^字符集] - 匹配不在字符集中的任意一个字符

[^abc] - 匹配任意一个不是a、b、c的字符

2.检测字符
所有的检测符号都不会影响字符串的长度

1）\b - 检测是否是单词边界

单词边界 - 能够将两个单词隔开并且不会产生歧义的任意符号：空白字符、标点符号等、字符串开头和字符串结尾
匹配规则：先去掉\b对字符串进行匹配，如果匹配成功再检查\b所在的位置是否是单词边界

匹配一个字符串长度是6，每个字符分别是abc123；并且要求abc和123之间是单词边界

re_str = r'abc\b 123'
print(fullmatch(re_str, 'abc 123'))

2）^ 检查^所在的位置是否是字符串开头
注意：这儿的^是字符串外面的

re_str = r'^\d\d\d'
print(fullmatch(re_str, '345'))

3）$ - 检查$所在的位置是否是字符串结尾

二.正则表达式（2）

控制次数的符号：字符后面的符号，包括普通字符和匹配字符

1.* 匹配0次或多次

123a* - 123后面a出现0次或者多次,123,123a,123aa...
123\d* - 123后面出现0个或者多个任意数字字符,123,1230,12321...

2.+ 匹配1次或多次

3.? 匹配0次或者1次

4.{}
1） {N} - 匹配N次
\d{3} - 匹配三个任意数字,345,344

2）{M,N} - 匹配M到N次

3）{M,} - 匹配至少M次

4）{,N} - 匹配至多N次

匹配电话号码
re_str = r'1[3-9]\d{9}'
匹配密码：要求6~12位的数字或者字母
re_str = r'[a-zA-Z\d]{6,12}'

5.贪婪和非贪婪
在匹配次数不确定的时候,会出现贪婪和非贪婪两种情况:默认情况都是贪婪的

1）什么是贪婪：在能够匹配成功的前提下，匹配次数尽可能多

2）什么是非贪婪：在能够匹配成功的前提下，匹配次数尽可能少（在匹配次数加?）

6.分之
正则1|正则2 - 先让正则1去匹配，如果匹配成功就成功;匹配失败再让正则2去匹配
(正则1和正则2中只要有一个能匹配成功就行)

7.分组
() - 将()里的内容作为一个整体
1）整体操作

print(fullmatch(r'(\d{2}|[A-Z]{2})abc','KJabc'))

2）分组
a.分组截取：方便后面分段或者分情况取不同的匹配结果
b.分组重复：在正则中用\X来重复前面第X个分组匹配到的内容
注意：\X的前面必须有这个分组

8.转义
1）加 \
在正则中有特殊功能和特殊意义的符号前加\，让这个符号的特殊功能和意义消失

2）加[]
在[]中有特殊意义的符号:
a.^放在最开头
b.-放在两个字符之间
其他符号: .+?*$, 这个单独符号在[]中都表示这个符号本身

三.re模块

import re

re模块是python提供的，专门针对正则表达式应用的相关函数

1.compile(正则表达式) - 将正则表达式转换成正则对象

re_obj = compile(r'\d{3}')

fullmatch(r'\d{3}','347')
re_obj.fullmatch('234')

2.字符串匹配

fullmatch(正则表达式，字符串) - 让正则表达式和字符串完全匹配
match(正则表达式，字符串) - 匹配字符串开头

以上两个方法的结果:匹配失败结果是None，匹配成功会返回匹配对象

re_str = r'\d{3}'
print(re.match(re_str, '382adadada=='))

1）匹配对象

result = re.fullmatch(r'(\d{3})=([a-z]{2})','234=as')
print(result)

a.获取匹配到的字符串
匹配对象.group() - 获取整个正则表达式匹配到的字符串，结果是字符串
匹配对象.group(N) - 获取整个正则表达式中第N个分组匹配到的字符串

print(result.group(1))
print(result.group())

b.获取匹配到的字符串在原字符串中的位置信息
匹配对象.span() - 返回匹配结果在原字符串中的下标范围:[开始下标，结束下标]
匹配对象.span(N) - 返回第N个分组匹配到的结果在原字符串中的下标范围:[开始下标，结束下标]

c.获取原字符串
匹配对象.string

print(result.string)

3.查找
1）search(正则表达式，字符串) - 在字符串中查到第一个满足正则表达式的字串，如果找到了结果是匹配对象，
找不到结果是None

result = re.search(r'\d{3}','是否231奥术大师231')
print(result)

2）findall(正则表达式，字符串) - 获取字符串中所有满足正则表达式的字串;返回值是一个列表
注意：如果正则表达式有分组，列表中的匹配结果只会取分组匹配到的内容

result = re.findall(r'\d{3}[a-z]{2}', '是234hu士大夫345mmks89h-=数348kl几十块的')
print(result)
result = re.findall(r'(\d{3})([a-z]{2})', '是234hu士大夫345mmks89h-=数348kl几十块的')
print(result)

3）finditer(正则表达式,字符串) - 获取字符串中所有满足正则表达式的字串；返回值是一个迭代器，元素是匹配对象

result = re.finditer(r'(\d{3})([a-z]{2})', '是234hu士大夫345mmks89h-=数348kl几十块的')
print(result)
group = []
group1 = []
group2 = []
for x in result:
    group.append(x.group())
    group1.append(x.group(1))
    group2.append(x.group(2))

print(group)
print(group1)
print(group2)

4.切割
split(正则表达式, 字符串) - 将字符串中满足正则表达式的字串作为切割点对字符串进行切割，返回一个字符串列表

5.替换
sub(正则表达式,字符串1,字符串2) - 将字符串2中所有满足正则表达式的字串都替换成字符串1