导语
正则表达式的作用:
- 测试字符串内的模式
- 替换文本
- 基于模式匹配从字符串中提取子字符串
语法
正则表达式的各组成部分可以是单个字符、字符集、字符范围或在几个字符之间选择。 也可以是这些组成部分的任意组合。
写完第一步是需要测试的,这里提供一个在线测试网站RegexPlaner
以下是个人常用的(具体的看官方文档)
- 通过在一对分隔符之间放置表达式的各种组成部分,就可以构建正则表达式
/expression/ - 最简单的正则表达式是与搜索字符串相比较的单个普通字符。 例如,单字符正则表达式 A 会始终匹配字母 A,无论其会出现在搜索字符串的哪个位置。
/A/
/a/
/123/ - 元字符
-
.
:匹配除换行符以外的任意字符 - \w:匹配字母或数字或下划线或汉字
- \s:匹配任意的空白符
- \d:匹配任意数字
- \b:匹配单词的开始和结束
- ^:字符串的开始
- ¥:字符串的结束
- 当然如果你字符串中本来就有这些符号,就可以使用\来进行转义
.
,如*
就应该写成
E.G:
\ba\w*\b
匹配以字母a开头的单词——先是某个单词开始处(\b),然后是字母a,然后是任意数量的字母或数字(\w),最后是单词结束处(\b)。
\d+
匹配1个或更多连续的数字。这里的+是和类似的元字符,不同的是*匹配重复任意次(可能是0次),而+则匹配重复1次或更多次。
元字符^
(和数字6在同一个键位上的符号)和$
都匹配一个位置,这和\b
有点类似。^
匹配你要用来查找的字符串的开头,$
匹配结尾。比如一个网站如果要求你填写的QQ号必须为5位到12位数字时,可以使用:^\d{5,12}$
- 限定符
-
*
:匹配零次或多次前面的字符或子表达式 -
+
: 匹配一次或多次前面的字符或子表达式 - `?:匹配零次或一次
-
{n}
: 匹配N次 -
{n,}
: 匹配N或更多次 -
{n,m}
: 匹配N到M次
E.G:Linux\d+
:匹配Linux之后跟的一个或多个数字
- 字符类
如果你想匹配没有预定义元字符的字符集合(比如元音字母a,e,i,o,u),你只需要在方括号里列出它们就行了,像[aeiou]就匹配任何一个英文元音字母,[.?!]匹配标点符号(.或?或!)。
- [a-z]&[A-Z]:匹配任意一个小写字母&大写字母
E.G:
/(?0\d{2}[) -]?\d{8}
:就可以匹配(010)88886666,或022-22334455,或02912345678之类的。首先使用\对(
进行转义,然后匹配一个或没有0,再接着两个数字,[)-]
则匹配一次) or -
这两个符号,最后再加上\d{8}
匹配八位数字
- 反义
有时需要查找不属于某个能简单定义的字符类的字符。比如想查找除了数字以外,其它任意字符都行的情况,这时需要用到反义。
- \W:匹配任意不是字母,数字,下划线,汉字的字符
- \S:匹配任意不是空白符的字符
...
*[^z]:匹配除了z以外的任意字符
- 分支条件 .
正则表达式里的分枝条件指的是有几种规则,如果满足其中任意一种规则都应该当成匹配,具体方法是用|
把不同的规则分隔开。
E.G:
-
0\d{2}-\d{8}|0\d{3}-\d{7}
这个表达式能匹配两种以连字号分隔的电话号码:一种是三位区号,8位本地号(如010-12345678),一种是4位区号,7位本地号(0376-2233445) -
\d{5}-\d{4}|\d{5}
这个表达式用于匹配美国的邮政编码。美国邮编的规则是5位数字,或者用连字号间隔的9位数字。之所以要给出这个例子是因为它能说明一个问题:使用分枝条件时,要注意各个条件的顺序。如果你把它改成\d{5}|\d{5}-\d{4}
的话,那么就只会匹配5位的邮编(以及9位邮编的前5位)。原因是匹配分枝条件时,将会从左到右地测试每个条件,如果满足了某个分枝的话,就不会去再管其它的条件了。
- 分组
前面我们看到单个字符数字等可以重复,其实多个也是可以的,这就需要使用分组啦
E.G:
((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)
:匹配IP地址,自己领会~