正则表达式入门

正则表达式,又称规则表达式。(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。比如处理网页文本的程序时,经常会有查找符合某些复杂规则的字符串的需要。正则表达式就是用于描述这些规则的工具。模式用于描述在搜索文本时要匹配的一个或多个字符串。

基础

举个栗子

比如需要匹配 we 单词,可以直接使用正则表达式:we,这是最简单的正则表达式,可以精确匹配英文文献中的we单词。

正则表达式工具一般可以设置为忽略大小写,那 we 可以将文献中的We、wE、we和WE都匹配出来。如果仅仅使用we来匹配,会发现得出来的结果和预想的不一样,类似于well、welcome这样的单词也会被匹配出来,因为这些单词中也包含we。

如何仅仅将we单词匹配出来呢?我们需要使用这样的正则表达式:\bwe\b。“\b”是正则表达式规定的一个特殊代码,被称为元字符,代表着单词的开头或结尾,也就是单词的分界处,它本身不代表英语中空格、标点符号、换行等单词分隔符,只是用来匹配一个位置。

如果我们需要匹配 we、work 和它们之间的所有内容,那么我们可以使用另外两个元字符 “.” 和 “*” ,正则表达式可以写为\bwe\b.*\bwork\b。

分开解释一下每一部分的意思:
“.” 匹配除了换行符的任意字符
“*” 元字符不是代表字符,而是代表数量,含义是“*”前面的内容可以连续重复任意次。
“.*” 整体的意思表示可以匹配任意数量不换行的字符。
所以,\bwe\b.*\bwork\b 表示匹配 we、work 和它们之间的任意数量的字符。

常用元字符

常用的元字符包括一下几种:

元字符 含义
. 匹配除换行符以外的任意字符
\b 匹配单词的开始或结束
\d 匹配数字
\w 匹配字母、数字、下划线或汉字
\s 匹配任意空白符,包括空格、制表符、换行符、中文全角空格等
^ 匹配字符串的开始
$ 匹配字符串的结束

再举个栗子
比如需要搜索出以 abc 开头后面是数字的字符,比如 abc123,可以使用abc\d*

但是如果要匹配元字符中不存在的字符集,例如匹配 a、b、c、d 和 e 中任意一个字符,这时候就需要自定义字符集合。正则表达式是通过[ ]来实现自定义字符集合,[abcde]就是匹配abcde中的任意一个字符,[.?!] 匹配标点符号(“.”、“? ”或“! ”)。
除了列举每个字符,还可以指定一个字符范围。
[0-9]代表的含义与“\d”是完全一致的。
[a-z0-9A-Z_]也等同于“\w”,代表着26个字母中的大小写、0~9的数字和下划线中的任一个字符(不考虑中文)。

字符转义

如果你想查找元字符本身的话,比如 “.” 或者 “*”。这个时候就需要用到转义,使用 “\” 来取消这些字符的特殊意义。因此如果查找 “.” 、“\” 或者 “*” 时,必须写成 “\.”、 “\\” 和 “\*”。例如匹配www.baidu.com这个网址时,可以表达式可以写为www\.baidu\.com。

重复限定符

限定符 含义
* 重复零次或多次
+ 重复一次或多次
重复零次或一次
{n} 重复 n 次
{n,} 重复 n 次或更多
{n, m} 重复 n 次至 m 次

* 前面已经使用过,再举个其他栗子
^\d{5,12}$:匹配5到12个数字的字符串。

分支条件

如果需要满足很多条件中的任意一种规则,可以用 “|” 把不同的规则分隔开。例如匹配身份证号(15位、18位数字):^\d{15}|\d{18}$

匹配分支条件时,将会从左到右地测试每个条件,如果满足了某个分支的话,就不会去再管其他条件了,条件之间是一种或的关系,例如从1234567890匹配出连续的4个数字或者连续8个数字,如果写成\d{4}|\d{8},其实\d{8}是失效的,既然能匹配出来8位数字,肯定就能匹配出4位数字。

反义

有时需要查找除某一类字符集合之外的字符。比如想查找除了数字以外,包含其他任意字符的情况。

元字符 含义
\B 匹配不是单词的开始或结束的位置
\D 匹配任意非数字的字符
\W 匹配任意不是字母、数字、下划线或汉字的字符
\S 匹配任意不是空白符的字符
[^a] 匹配除了 a 以外的任意字符
[^abcde] 匹配除了 a, b, c, d, e 以外的任意字符
[^(123 abc)] 匹配除了 1, 2, 3 或者a, b, c 以外的任意字符

高级用法

贪婪与懒惰

当正则表达式中包含能接受重复的限定符时,通常的行为是(在使整个表达式能得到匹配的前提下)匹配尽可能多的字符,这就是贪婪模式。以表达式a\w+b为例,如果搜索a12b34b,会尽可能匹配更多的个数,最后就会匹配整个a12b34b,而不是a12b。但是如果想匹配出a12b怎么办呢?这时候就需要使用懒惰模式,尽可能匹配个数较少的情况,因此需要将上面的a\w+b表达式改为a\w+? b,使用 “?” 来启用懒惰模式。

语法 含义
*? 重复任意次,但尽可能少重复
+? 重复一次或多次,但尽可能少重复
?? 重复零次或一次,但尽可能少重复
{n,}? 重复 n 次以上,但尽可能少重复
{n, m}? 重复 n 次至 m 次,,但尽可能少重复

分组和捕获

如果要对多个字符进行重复匹配,需要使用分组,我们可以使用小括号()来指定要重复的子表达式,然后对这个子表达式进行重复,例如:(abc)? 表示0个或1个abc 这里一个括号的表达式就表示一个分组。分组可以分为两种形式,捕获组和非捕获组。

捕获组

捕获组可以通过从左到右计算其开括号来编号。默认情况下,每个分组会自动拥有一个组号,规则是:从左向右,以分组的左括号为标志,第一个出现的分组的组号为1,第二个为2,以此类推。例如,在表达式(A)(B(D)) 中,存在四组,(A)(B(D)), (A), (B(D)), (D),对于分组而言,整个表达式永远算作第0组。

比如对于IP地址的匹配,简单的可以写为如下形式:

\d{1,3}.\d{1,3}.\d{1,3}.\d{1,3}
但仔细观察,我们可以发现一定的规律,可以把.\d{1,3}看成一个整体,也就是把他们看成一组,再把这个组重复3次即可。表达式如下:

\d{1,3}(.\d{1,3}){3}

另外,可以使用 Back 引用 是说在后面的表达式中我们可以使用组的编号来引用前面的表达式所捕获到的文本序列。
就拿匹配<title>xxx</title>标签来说,简单的正则可以这样写:

<title>.*</title>
可以看出,上边表达式中有两个title,完全一样,其实可以通过分组简写。表达式如下:

<(title)>.*</\1>

非捕获组

以 (?) 开头的组是非捕获组,它不捕获文本,也不针对组合进行计数。就是说,如果小括号中以?号开头,那么这个分组就不会捕获文本,当然也不会有组的编号,因此也不存在后向引用。

捕获组捕获的内容是被存储在内存中,可供以后使用,比如反向引用就是引用的内存中存储的捕获组中捕获的内容。而非捕获组则不会捕获文本,也不会将它匹配到的内容单独分组来放到内存中。所以,使用非捕获组较使用捕获组更节省内存。比如:(?:a|A)123(?:b)可以匹配 a123b 或者 A123b

分类 语法 含义
(exp) 匹配 exp,并捕获文本到自动命名的组里
捕获 (?<name>exp) 匹配 exp,并捕获文本到名称为 name 的组里,也可以写成 (?'name'exp)
(?:exp) 匹配 exp,不捕获匹配的文本,也不给此分组分配组号
(?=exp) 匹配 exp 前面的位置
零宽断言 (?<=exp) 匹配 exp 后面的位置
(?!exp) 匹配后面跟的不是 exp 的位置
(?<!exp) 匹配前面不是 exp 的位置
注释 (?#comment) 对正则表达式的处理没有任何影响,只是用于提供注释让人阅读

零宽断言

零宽断言总共有四种形式。前两种是正向零宽断言,后两种是负向零宽断言。

元字符“\b”、“^”匹配的是一个位置,而且这个位置需要满足一定的条件,我们把这个条件称为断言或零宽度断言。断言用来声明一个应该为真的事实,正则表达式中只有当断言为真时才会继续进行匹配。

  • (? =exp)叫零宽度正预测先行断言,它断言此位置的后面能匹配表达式exp。比如[a-z]*(? =ing)匹配以ing结尾的单词的前面部分(除了ing以外的部分),查找I love cooking and singing时会匹配出中的cook与sing。先行断言的执行步骤应该是从要匹配字符的最右端找到第一个“ing”,再匹配前面的表达式,如无法匹配则查找第二个“ing”。
  • (? <=exp)叫零宽度正回顾后发断言,它断言此位置的前面能匹配表达式exp。比如(? <=abc).*匹配以abc开头的字符串的后面部分,可以匹配abcdefgabc中的defgabc而不是abcdefg。通过比较很容易看出后发断言和先行断言正好相反:它先从要匹配的字符串的最左端开始查找断言表达式,之后再匹配后面的字符串,如果无法匹配则继续查找第二个断言表达式。

负向零宽断言的两种形式(把 = 换成 !):

  • (? ! exp)叫零宽度负预测先行断言,断言此位置的后面不能匹配表达式exp。比如\b((? ! abc)\w)+\b匹配不包含连续字符串abc的单词,查找“abc123, ade123”这个字符串,可以匹配出ade123。
  • (? <! exp)叫零宽度负回顾后发断言,断言此位置的前面不能匹配表达式exp。比如(? <! [a-z])\d{7}匹配前面不是小写字母的七位数字。还有一个复杂的例子:(? <=<(\w+)>).*(? =</\1>),用于匹配不包含属性的简单HTML标记内的内容。比如可以从 <div>test</div> 中提取出“test”。

再举个栗子,正则表达式 (?<!4)56(?=9),匹配后面的文本56前面不能是4,后面必须是9组成。因此,可以匹配如下文本 5569 ,与4569不匹配。

注释

正则表达式可以包含注释进行解释说明,通过语法(? #comment)来实现,例如\b\w+(? #字符串)\b。要包含注释的话,最好是启用“忽略模式里的空白符”选项,这样在编写表达式时能任意地添加空格、Tab、换行,而实际使用时这些都将被忽略。

CSDN博客:https://blog.csdn.net/wf96390/article/details/88762756

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,922评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,591评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,546评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,467评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,553评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,580评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,588评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,334评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,780评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,092评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,270评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,925评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,573评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,194评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,437评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,154评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,127评论 2 352

推荐阅读更多精彩内容

  • [TOC] 什么是正则表达式? 正则表达式是一组由字母和符号组成的特殊文本, 它可以用来从文本中找出满足你想要的格...
    Selen_Lin阅读 563评论 0 0
  • 正则表达式学习笔记 一篇记录了学习正则表达式的笔记。 1. 转义字符 在 HTMl 中转义字符以 & 符号开头,分...
    heyi_let阅读 394评论 0 0
  • 原文参考自: //www.greatytc.com/p/681d3e07fb0f 一、原理概论 1、正则...
    Rui哥阅读 557评论 0 2
  • 2017年11月08日09:57:27再次重新系统的开始学习正则表达式,希望这次可以真正的学会! 语法学习 1. ...
    贺贺v5阅读 1,390评论 0 1
  • 我最爱同学聚,那种当年相交甚深的同学相聚,即便各自忙各自的生活,也许许久未联系,但很久之后相聚仍然感觉非常亲切。 ...
    茶幺阅读 503评论 0 1