day17-正则表达式

一.正则表达式1

1.什么是正则表达式

处理字符串的工具,通过不同的正则符号来描述字符串的规则

2.正则符号(正则语法)

fullmatch(正则表达式, 字符串) - 查看字符串和正则表达式是否匹配,如果不匹配则返回None
正则表达式:r'正则语法'

from re import fullmatch
re_str = r''
result = fullmatch(re_str, str1)
1)普通字符:除了在正则中有特殊功能和特殊意义的符号以外的字符就是普通字符

普通字符表示字符本身

2) . - 匹配任意一个字符
3) \w - 匹配一个数字、字母或者_(在ASCII表中,非ASCII表不受约束)
4) \d - 匹配任意一个数字字符
5) \s - 匹配任意一个空白字符(包括空格字符、换行字符、制表符...)
6) \大写字母
a.\D - 匹配任意一个非数字字符
b.\S - 匹配任意一个非空白字符
7) [字符集] - 匹配字符集中出现的任意一个字符

注意:一个[]只能匹配一个字符

a.

[赵钱孙李] - 匹配'赵钱孙李'中的任意一个字符

b.

[1-9] - 匹配从1到9的任意一个字符(字符编码在'1'至'9'之间的字符)
[a-z] - 匹配任意一个小写字母
[A-Z] - 匹配任意一个大写字母
[a-zA-Z] - 匹配任意一个字母
[a-zA-z0-9_] - 匹配字母、数字、_
[ \t\n] - 匹配任意一个空白字符
[\u4e00-\u9fa5] - 匹配任意一个中文字符

8) [^字符集] - 匹配不在字符集中的任意一个字符
9) 检测符号 - 不会影响字符串长度
from re import search, findall
search(正则表达式, str1)
a.\b - 检查是否是单词边界

单词边界是能够将两个单词隔开并且不会产生歧义的任意符号:空白字符、标点符号等、字符串开头和结尾
匹配规则:先去掉\b对字符串进行匹配,如果成功再检查\b所在位置是否是单词边界

b.^ - 检查^所在位置是否是字符串开头(该^在[]外)
c.$ - 检查$所在位置是否是字符串结尾

二.正则表达式2

控制次数的符号:字符符号

1. * - 匹配0次或多次字符{0,}

a123* - a12后面出现0次或多次3
123[mnxy9]* - 123、123m、123mm、123xy、1239...

2. + - 匹配1次或多次{1,}

3. ? - 匹配0次或1次{,1}

4. {}

a.{N} - 匹配N次
b.{M,N} - 匹配M到N次(至少M次,最多N次)

例:匹配6~12位的数字或字母
re_str = r'[a-zA-Z\d]{6,12}'

c.{M,} - 匹配至少M次
d.{,N} - 匹配最多N次

5.贪婪和非贪婪

在匹配次数不确定的时候(),存在贪婪和非贪婪两种情况(默认情况都是贪婪)

1)贪婪:在能够匹配成功的情况下,匹配次数尽可能多

例:

from re import search
re_str = r'a.+'
print(search(re_str, 'hsadlnj'))    # adlnj
2)非贪婪:在能够匹配成功的情况下,匹配次数尽可能少(在匹配次数后面加问号)

*?
+?
??
{M,N}?

6.分之

正则1|正则2 - 先让正则1去匹配,匹配成功就停止,否则让正则2去匹配

# 写一个正则表达式匹配一个字符串:abc的前面是两个数字或或者两个大写字母
from re import fullmatch
re_str = r'%d{2}abc|[A-Z]{2}abc'
print(fullmatch(re_str, str1))

7.分组

() - 将括号里面的内容作为一个整体

1)整体操作

r'(\d{2}|[A-Z]{2})abc' - 匹配一个字符串,后面是abc,前面是两个数字或者两个大写字母
r'([a-z}\d){3}' - 匹配字母+数字连续出现3次的字符串

2)分组
a.分组截取:方便后面分段或者分情况取不同匹配结果
from re import findall
re_str = r'(\d{3})[a-z]{3}'
print(findall(re_str, '545asda548asd544879asdfs'))    # ['545', '548', '879']
b.分组重复:在正则中用\num来重复前面第num个分组匹配到的内容

注意:\num的前面必须有至少num个分组
re_str = r'(\d{3})[a-z]{3}\1'

8.正则中的转义符号

1)加\

在正则中有特殊功能和特殊意义的符号前加\,让这个符号的特殊功能和意义消失

2)加[]

[]中有特殊意义的符号:

a.^放在开头
b.-放在两个字符之间

三.re模块

from re import *
re模块是python提供的、专门针对针对正则表达式应用的相关函数

1.compile(正则表达式) - 将正则表达式装换成正则对象(基本不用)

2.字符串匹配

fullmatch(正则表达式, 字符串) - 让正则表达式和字符串完全匹配
match(正则表达式, 字符串) - 匹配字符串开头是否满足正则表达式

匹配失败返回结果None,匹配成功返回匹配对象

1)匹配对象
a.获取匹配到的字符串

匹配对象.group() - 获取整个正则表达式匹配到的字符串,结果是字符串
匹配对象.group(N) - 获取整个正则表达式中第N个分组匹配到的字符串,结果是字符串

b.获取匹配到的字符串在原字符串中的位置信息

匹配对象.span() - 返回匹配结果在原字符串中的下标范围:[开始, 结束)
匹配对象.span(N) - 返回第N个分组匹配结果在原字符串中的下标范围:[开始, 结束)

c.获取原字符串

匹配对象.string

3.查找

1)search(正则表达式, 字符串) - 在字符串中查找第一个满足正则表达式的子串,匹配成功返回匹配对象,否则None
2)findall(正则表达式, 字符串) - 获取字符串中所有满足正则表达式的子串,返回一个列表

*注意:如果正则表达式中有分组,返回结果就是匹配结果中分组内容

3)finditer(正则表达式, 字符串) - 获取字符串中所有满足正则表达式的子串,返回一个迭代器,元素是匹配对象

4.切割

split(正则表达式, 字符串) - 将字符串中满足正则表达式的子串作为切割点对字符串进行切割,返回一个列表

5.替换

sub(正则表达式, 字符串1, 字符串2) - 将字符串2中所有满足正则表达式的子串都替换成字符串1

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,290评论 6 491
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,107评论 2 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 156,872评论 0 347
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,415评论 1 283
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,453评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,784评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,927评论 3 406
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,691评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,137评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,472评论 2 326
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,622评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,289评论 4 329
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,887评论 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,741评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,977评论 1 265
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,316评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,490评论 2 348

推荐阅读更多精彩内容

  • 1.正则基本符号 1.1.什么是正则表达式正则表达式就是字符匹配的工具;是由正则符号和普通字符组成,来匹配不同规律...
    未醒的梦_19b0阅读 447评论 0 0
  • 1.什么是正则表达式 1.正则基本符号正则表达式就是字符匹配的工具;是由正则符号和普通字符组成,来匹配不同规律的字...
    学python的铁头娃阅读 371评论 0 0
  • 1.正则基本符号 1.什么是正则表达式正则表达式就是字符匹配工具;是由正则符号和普通字符组成,来匹配不同规律的字符...
    杨海py阅读 793评论 0 0
  • 1.正则表达式 1.1什么是正则表达式 正则表达式就是字符匹配的工具;是由正则符号和普通字符组成,来匹配不同规律的...
    barriers阅读 340评论 0 0
  • 前沿 OC里的runtime就是Java里反射的概念。关于OC中runtime的应用早就被玩烂了, 今天介绍关于用...
    sixleaves阅读 761评论 0 0