正则表达式是一种让字符串处理更简单的工具(本质是做字符串匹配的)
一、正则表达式的语法
fullmatch(正则表达式,字符串) - 让正则表达式和字符串进行完全匹配,如果匹配失败结果是None
js的正则:/正则表达式/
Python的正则:r'正则表达式'
from re import fullmatch,search
# 1)普通字符 - 表示字符本身
re_str= r'abc'
result = fullmatch(re_str,'abc')
print(result)
# 2). - 匹配一个任意字符
re_str = r'.abc'
result = fullmatch(re_str,'sabc')
print(result)
#3)\w - 匹配任意一个数字,字母或者下划线(针对ASCII码表有效)(平时不用)
#4)\d - 匹配任意一个数字字符(\D 匹配非数字)
re_str = r'\d\d\d'
result = fullmatch(re_str,'126')
print(result)
#5)\s - 匹配任意一个空白字符(\S 匹配非空字符)
re_str = r'\s\d..'
result = fullmatch(re_str,' 2sw')
print(result)
6)[字符集] - 匹配字符集中出现的任意字符
注意:
一个[]只能匹配一个字符
a.
[abc123] | 匹配a,b,c,1,2,3 中任意一个字符 |
---|
b. 前面的字符编码值必须小于后面的字符编码
-如果不在两个字符的中间,就没有特殊功能
字符 | 含义 |
---|---|
[a-z] | 匹配从字符a到字符z之间的任意一个字符 |
[A-Z] | 匹配任意一个大写字母 |
[a-zA-Z] | 匹配任意一个字母 |
[0-9] | 匹配任意一个数字字符 |
[\u4e00-\u9fa5] | 匹配任意一个中文字符 |
[^字符集] | 取不在字符集中任意一个字符 |
re_str = r'[abc123]123'
result = fullmatch(re_str,'a123')
print(result)
re_str = r'[\u4e00-\u9fa5]123'
result=fullmatch(re_str,'好123')
print(result)
re_str =r'1[3-9]\d\d\d\d\d\d\d\d\d'
result=fullmatch(re_str,'13648876224')
print(result)
re_str =r'[_A-Za-z0-9]abc'
result=fullmatch(re_str,'jabc')
print(result)
二、检测符号
1)\b - 检测是否是单词的边界
单词边界:字符串开头、字符串结尾、凡是能区分出两个不同单词的符号
注意:检测类符号不影响匹配的长度,只是在匹配成功的时候做进一步的检测
2)^ - 检测^所在的位置是否是字符串开头
re_str = r'^abc'
result = fullmatch(re_str,'abc')
print(result)
#3) $ - 检测$所在位置是否是字符串结尾
re_str = r'\d\d$'
print(search(re_str,'dsfsf23ffas34'))
三、匹配次数(左匹配)
字符 | 含义 |
---|---|
* | 匹配0次或多次 |
+ | 至少一次 |
? | 匹配0次或1次 |
#1)* - 匹配0次或多次
re_str = r'a*'
print(fullmatch(re_str,'aaa'))
#2) + - 至少一次
re_str=r'a+'
print(fullmatch(re_str,'a'))
# 3)? - 匹配0次或1次
re_str=r'\d?abc'
print(fullmatch(re_str,'1abc'))
#练习:写一个正则表达式可以匹配任意一个整数字符串
re_str = r'[+-]?\d+'
print(fullmatch(re_str,'1213'))
{} | 含义 |
---|---|
{N} | 匹配n次 |
{M,N} | 匹配M到N次 |
{M,} | 匹配至少M次 |
{,N} | 0到N次 |
re_str= r'\d{4}abc'
print(fullmatch(re_str,'1384abc'))
四、贪婪和非贪婪
在匹配次数不确定的情况下,匹配模式分为两种:贪婪和非贪婪
- 贪婪:默认都是贪婪的(在能匹配到的前提下匹配次数尽可能多)
- 非贪婪:(能匹配成功的前提下)在匹配次数不确定的时候,次数后面加?,匹配就是非贪婪
贪婪模式 | 非贪婪模式 |
---|---|
* | *? |
+ | +? |
? | ?? |
{M,N} | {M,N}? |
{M,} | {M,}? |
{,N} | {,N}? |
re_str=r'\d{2,}?'
print(search(re_str,'32352gfdgdg'))