Python正则表达式——re模块知识点

Python专门内置了re模块,用于实现正则表达式的操作。在这里我对该模块知识点做一个简单的总结,方便学习和查询。

1 模块导入

import re
doc = "@AAABCDBEDBFDEF 1234561_abcdef$@AA"

2 常用的正则符号

2.1 一般符号

符号 说明 示例 示例结果
. 匹配任意单个字符(不包括换行符\n) re.findall('a.c', doc) ['abc']
\ 转义字符 re.findall("f\$", doc) ['f$']
[...] 字符集。对应字符集中的任意字符 re.findall('B[CFE]D', doc) ['BCD', 'BED', 'BFD']

2.2 预定义字符集

符号 说明 示例 示例结果
\d 匹配一个数字字符,等价于[0-9] re.findall('1\d', doc) ['12']
\D 匹配一个非数字字符,等价于[^0-9] re.findall('1\D', doc) ['1_']
\s 匹配任何空白字符,包括空格、制表符、换行符等,等价于[\f\n\r\t\v] re.findall('F\s1', doc) ['F 1']
\S 匹配任何非空白字符,等价于[^\f\n\r\t\v] re.findall('1\S3', doc) ['123']
\w 匹配包括下划线的任何单词字符,等价于[A-Za-z0-9] re.findall('1\wa', doc) ['1_a']
\W 匹配任何非单词字符,等价于[^A-Za-z0-9] re.findall('\WA', doc) ['@A']

2.3 数量词

符号 说明 示例 示例结果
* 匹配前一个字符0或无限次 re.findall('BE*', doc) ['B', 'BE', 'B']
+ 匹配前一个字符1或无限次 re.findall('BE+', doc) ['BE']
匹配前一个字符0或1次 re.findall('BE?', doc) ['B', 'BE', 'B']
{m} 匹配前一个字符m次 re.findall('@A{3}', doc) ['@AAA']
{m,n} 匹配前一个字符m至n次 re.findall('@A{1,3}', doc) ['@AAA', '@AA']

2.4 边界匹配

符号 说明 示例 示例结果
^ 匹配字符串开头 re.findall('^@\D?', doc) ['@A']
$ 匹配字符串结尾 re.findall('AA$', doc) ['AA']
\A 仅匹配字符串开头 re.findall('\A@AA', doc) ['@AA']
\Z 仅匹配字符串结尾\Z re.findall('@AA\Z', doc) ['@AA']

3 常用匹配方法

3.1 search()

该方法匹配并提取第一个符合规律的内容,返回一个正则表达式对象。

import re

doc = "@AAABCDBEDBFDEF 1234561_abcdef@AA"
a = re.search("AA", doc)
print(a)
# <re.Match object; span=(1, 3), match='AAA'>

3.2 findall()

该方法匹配所有符合规律的内容,并以列表的形式返回结果。

import re

doc = "@AAABCDBEDBFDEF 1234561_abcdef@AA"
a = re.findall("AA", doc)
print(a)
# ['AA', 'AA']

3.3 fullmatch()

该方法检测整个字符串是否匹配,匹配失败返回None,匹配成功返回一个正则表达式对象。

import re

doc = "abcdef"
a = re.fullmatch("abc", doc)
print(a)
# None
a = re.fullmatch("a\D*", doc)
print(a)
# <re.Match object; span=(0, 6), match='abcdef'>

4 模块修饰符

re模块包含一些可选的标志修饰符,用来控制匹配的模式,如下:

符号 说明
re.I 使匹配对大小写不敏感(注意这里的I是大写的i)
re.L 做本地化识别(local-aware)匹配
re.M 多行匹配,影响 ^ 和 $
re.S 使匹配包括换行符在内的所有字符
re.U 根据Unicode字符集解析字符。这个标志影响\w,\W,\b,\B
re.X 该标志通过给予更灵活的格式,以便将正则表达式写得更易理解
import re

doc = """abcdefAbC

        xyz"""

a = re.findall("abc\w*", doc)
print(a)
# ['abcdefAbC']

a = re.findall("abc", doc, re.I)
print(a)
# ['abc', 'AbC']

a = re.findall("a(.*?)z", doc)
print(a)
# []
a = re.findall("a(.*?)z", doc, re.S)
print(a)
# ['bcdefAbC\n\n        xy']

5 爬虫re模块使用技巧

5.1 非贪心算法(.*?)

上面的例子里有用到(.*?)表达式,“()”表示括号的内容作为返回结果,“.*?”是非贪心算法,匹配任意的字符。例如,字符串"xxIxxddsgxxlovexxghhfgxxPythonxxsfsd",可以通过'xx(.*?)xx'匹配符合这种规则的字符串。

import re


a = "xxIxxddsgxxlovexxghhfgxxPythonxxsfsd"
info = re.findall('xx(.*?)xx', a)
print(info)
#  ['I', 'love', 'Python']

5.2 跨行匹配re.S

在爬虫中,re.S是最常用的修饰符,它能够换行匹配。举个例子:
例如提取<div>指数</div>中的文字,可以通过以下代码实现:

import re

a = '<div>指数</div>'
word = re.findall('<div>(.*?)</div>', a)
print(word)
# [指数]

但是如果字符串是下面这样的多行字符串就会匹配不到字符串。

import re

a = '''<div>指数

</div>'''
word = re.findall('<div>(.*?)</div>', a)
print(word)
# []

这是因为findall()函数是逐行匹配的,当第1行没有匹配到数据时,就会从第2行开始重新匹配,这样就没法匹配到div标签中的文字信息,这时便可通过re.S来进行跨行匹配。

import re

a = '''<div>指数

</div>'''
word = re.findall('<div>(.*?)</div>', a, re.S)
print(word)
#['指数\n\n']
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 207,248评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,681评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 153,443评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,475评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,458评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,185评论 1 284
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,451评论 3 401
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,112评论 0 261
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,609评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,083评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,163评论 1 334
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,803评论 4 323
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,357评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,357评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,590评论 1 261
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,636评论 2 355
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,925评论 2 344

推荐阅读更多精彩内容