正则表达式(一):常用元字符

正则是什么

正则表达式是一种字符串模式,用来对某些规则的文本内容进行处理。利用字符串构成成的数据结构,来完成对文本内容的匹配。

经常可以看到正则表达式的句子里包含了一些\d\w()之类的符号,这些特殊格式的符号可以看做正则结构中的元素,这些符号也成之为元字符,下面介绍下这些元字符的作用。

常用元字符

下面列出正则中常用元字符及表示意思,这些通用元字符的使用在不同语言中表达作用是相同的。

  1. 匹配字符内容
符号 代表意思 使用场景
\d 数字0-9 \d 匹配单个数字,1、2、3
\D 非数字 \D 匹配单个非数字,a、-、'
\w 字母、数字、下划线 \w 匹配单个字母、数字、下划线,a、1、_
\W 非字母、数字、下划线 \W 匹配单个非字母、数字、下划线,{、-、[
\s 空白字符 \s 匹配单个空格、回车(\n)、制表符(\t)
\S 非空白字符 \S 匹配单个非空格、换行(\n)、制表符(\t)
. 匹配除换行之外的所有字符 . 单个换行之外所有字符

以上表格中元字符为常用通配字符,使用形式如:

\d\d\d                       ---------           123
\w\w\w\w\w\s\w\w\w\w\w       ---------         hello world

但是上述写法存在一个很明显的缺陷,就是\d、\w的重复次数问题。所以下面列举表达次数的元字符

  1. 匹配次数
符号 代表意思 使用场景
* 0次及0次以上 \d* 匹配数字,123、02、空
+ 1次及1次以上 \d+ 匹配数字,123、02、3
? 0次或1次 \d? 匹配数字,2、空
{m,n} m次到n次 \d{1,3} 匹配数字,2、12、123
{n} n次 \d{2} 匹配数字,12
{n,} n次及n次以上 \d{2,} 匹配数字,12、123、1234

有了表达次数的元字符后,上述形式的字符串模板写法就简单些了

\d{3}                      ---------           123
\w{5}\s{5}                 ---------         hello world

但是只有通配符号、和次数的元字符还不足以应对常用场景:

String line = "hello world!"

这里如果要匹配整个字符串内容,或者只匹配hello这一个单词,也就是需要对字符串的位置进行校验,下面列出匹配位置的元字符


  1. 分组符号

在继续之前,首先介绍下"()",这里的小括号"()",称之为分组,分组匹配的内容可以在后续的正则中重复使用,只需要指定分组的序号即可。分组的序号是从左往右以此递增的

示例:

 ^(\w{4})\s\1\b    ---------     long long ago  ---  >    匹配"long long"  

分组的作用,除了提供后续引用之外,也用作捕获组,即正则中分组对应的匹配内容

示例:

import re

reg = "(\w{2})(\w{3})"
print(re.match(reg,"hello").groups())
输出结果:
('he', 'llo')
he
llo

由例子中可以看出这里的()分组捕获的匹配内容

有捕获分组,自然也有非捕获分组,在分组开头添加?:,表示该分组对应内容为非捕获分组

示例:

import re

reg = "(?:\w{2})(\w{3})"
print(re.match(reg,"hello").groups())
print(re.match(reg,"hello").group(1))
输出结果:
('llo',)
llo

其中分组的序号由"("出现的顺序确定,第一个"("序号为1,从左往右递增

示例:

import re

reg = "((?:\w{2})(\w{3}))"
print(re.match(reg,"hello").groups())
print(re.match(reg,"hello").group(1))
print(re.match(reg,"hello").group(2))
输出结果:
('hello', 'llo')
hello
llo

  1. 匹配位置
符号 代表意思 使用场景
^ 字符串开始位置 (^)abc 匹配字符串开头位置,a前面的位置
$ 字符串结束位置 abc($) 匹配字符串结束位置,c后面的位置
\b 单词(\w)与非单词之间的位置 a(\b)= 匹配"a"与"="之间的位置
\B 字符与字符之间的位置 a(\B)b 匹配"a"与"b"之间的位置

这里的元字符只是匹配位置,通过使用位置元字符来限制、过滤指定位置条件的内容。

^(\w{5})\b   -----      hello world ->  匹配内容为: hello

这里的匹配过程是:

  • ^指定字符串开头位置
  • \w{5}匹配内容
  • \b用来匹配"o"于空格之间的位置
  1. 其他元字符
符号 代表意思 使用场景
[] 匹配范围 [a-zA-Z] 匹配单个英文字母
^ 在上面的匹配位置元字符中,仅仅介绍了匹配字符串开头位置的作用,这里另外一个作用就是放在范围元字符中,起到取反的作用 [^a-d] 匹配单个非a,b,c,d四个英文字母之外的字符
\ 转义元字符 1\+ 匹配"1+"
| 分支条件 ab|cd 匹配ab、cd

关于断言、懒惰匹配相关内容在下一章介绍正则表达式(二):断言

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,686评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,668评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,160评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,736评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,847评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,043评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,129评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,872评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,318评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,645评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,777评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,861评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,589评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,687评论 2 351