以前每次要用到正则表达式都会到处去找资料看看元字符、限定符有哪些,怎么去用。用的很不熟悉,于是特意花了一个晚上去好好学学。写这篇博客对学到知识做一个的总结,也给以后做个参考吧,毕竟如果不经常用的话可能又会忘掉。
正则在线测试工具
什么是正则表达式
正则表达式是用于进行文本匹配的工具,就把正则表达式理解成一个字符串匹配规则,可以根据这个规则在文本中找到你想要的字符串部分。
接下来直接从元字符、字符转义、重复、字符类、反义、分枝条件、分组、向后引用这些来做个小归纳。
1 元字符(metacharacter)
元字符 | 说明 |
---|---|
. | 匹配除换行以外的任意字符 |
\d | 匹配数字 |
\s | 匹配空白符(空格符' '、水平制表符'\t'、垂直制表符'\v'、换行符'\n'、回车符'\r') |
\w | 匹配字母\数字\下划线\汉字 |
\b | 匹配单词的开始或结束 |
^ | 匹配字符串的开始 |
$ | 匹配字符串的结束 |
例子
- \bhongyu\w*\b 匹配以hongyu开头的单词。
- ^\d{5,12}$ 匹配一个含有5到12位数字的字符串。
2 字符转义
当要匹配特殊字符本身时,用\来取消特殊字符的特殊意义
字符 | 表示 |
---|---|
. | \. |
* | \* |
\ | \\ |
^ | \^ |
$ | \$ |
例子
- c:\\windows匹配c:\windows。
- hongdou \^ hongyu匹配hongdou ^ hongyu。
3 重复
代码/语法 | 说明 |
---|---|
* | 重复零次或更多次 |
+ | 重复一次或更多次 |
? | 重复零次或一次 |
{n} | 重复n次 |
{n,} | 重复n次或更多次 |
{n,m} | 重复n到m次 |
例子
- hi \w+ 匹配以hi 开头后面跟一个或多个字符的字符串。
- 134\d{8} 匹配以134开头的11位数字的字符串。
4 字符类
- [aeiou] 匹配 任何一个元音字母 a,e,i,o,u
- [a-z0-9A-Z] 匹配任意一个a-z或0-9或A-Z的字符
5 反义
代码/语法 | 说明 |
---|---|
\W | 匹配任意不是字母和数字的字符 |
\S | 匹配任意不是空白符的字符 |
\D | 匹配任意非数字的字符 |
\B | 匹配不是单词开头或结束的位置 |
[^x] | 匹配除了x以外的任意字符 |
[^aeiou] | 匹配除了aeiou这几个字母以外的任意字符 |
6 分枝条件
就类似于或,比方说你想匹配两种号码的任意一种:一种是三位区号,8位本地号(如010-12345678),一种是4位区号,7位本地号(0376-2233445)。可以用 0\d{2}[- ]?\d{8}|0\d{3}[- ]?\d{7}
两个条件用 | 隔开。使用分枝条件时,要注意各个条件的顺序,如\d{5}|\d{5}-\d{4},那么就只会匹配5位的数字串(以及9位数字串的前5位)。原因是匹配分枝条件时,将会从左到右地测试每个条件,如果满足了某个分枝的话,就不会去再管其它的条件了。
7 分组
前面提到的重复部分的例子都是针对于单个字符进行的,那么如果要重复多个字符时,就要用到分组了。
例子
- ((2[0-4]\d|25[0-5]|[01]?\d\d?).){3}(2[0-4]\d|25[0-5]|[01]?\d\d?):
((2[0-4]\d|25[0-5]|[01]?\d\d?).)这个整体(分组)重复三次({3}),这是匹配一个IP地址。
8 向后引用
当使用一个小括号制定子表达式后,匹配到的文本希望在后面能用于匹配 ,默认的情况下,每个分组会自动有一个组号,组号从左到右,以分组的左括号为标志,第一个出现的为1,第二个为2,以此类推。后面要用的某族匹配的文本时,用\组名,如\1代表分组1匹配的文本。
代码/语法 | 说明 |
---|---|
(exp) | 匹配exp,并捕获文本到自动命名的组里(及将捕获的文本内容记录下来) |
(?<name>exp) | 匹配exp,并捕获文本到命名为name的组里(也可写成?'name'exp) |
(?:exp) | 匹配exp,不捕获匹配的文本,也不给次分组分配组号 |
例子
- \b(\w+)\b\s+\1\b 匹配重复的单词,如: ha ha, go go。
- \b(?<Word>\w+)\b\s+\k<Word>\b。同1,这里自己定义了分组名Word
9 零宽断言
像\b, ^ , $那样用于指定一个位置,这个位置要满足何种条件(断言),零宽断言用于指定在某些内容前面或者后面要满足什么条件。零宽断言有四种:零宽度正预测先行断言(断言位置的后面能匹配表达式exp)、零宽度正回顾后发断言(断言位置的前面能匹配表达式exp)、零宽度负预测先行断言(断言位置的后面不能匹配表达式exp)、零宽度负回顾后发断言(断言位置的前面不能匹配表达式exp)
代码/语法 | 说明 |
---|---|
(?=exp) | 匹配exp前面的位置 |
(?<=exp) | 匹配exp后面的位置 |
(?!exp) | 匹配后面跟的不是exp的位置 |
(?<!exp) | 匹配前面不是exp的位置 |
例子
- \b\w+(?=ing\b),匹配以ing结尾的单词的前面部分(除了ing以外的部分):I'm singing while you're dancing.时,它会匹配sing和danc。
- (?<=\bre)\w+\b,匹配以re开头的单词的后半部分(除了re以外的部分):reading a book时,它会匹配ading。
- ((?<=\d)\d{3})+\b,用它对1234567890进行查找时结果是234567890。
- \b\wq(?!u)\w\b ,包含后面不是字母u的字母q的单词。
- (?<![a-z])\d{7}匹配前面不是小写字母的七位数字。
- (?<=<(\w+)>).*(?=</\1>)匹配不包含属性的简单HTML标签内里的内容。
10 贪婪与懒惰
贪婪就是匹配尽可能多的字符,懒惰就是匹配尽可能少的字符。例如对于字符串ababab,用a.b,将匹配到ababab,这个就是 贪婪匹配;用a.?,匹配到的就是ab,这就是懒惰匹配。正则表达式通常的行为是进行贪婪匹配,要将贪婪匹配转换成懒惰匹配,只要在限定符后面加上问好?就行了。以下是懒惰限定符
代码/语法 | 说明 |
---|---|
*? | 重复任意次,但尽可能少重复 |
+? | 重复1次或更多次,但尽可能少重复 |
?? | 重复0次或1次,但尽可能少重复 |
{n,m}? | 重复n到m次,但尽可能少重复 |
{n,}? | 重复n次以上,但尽可能少重复 |
11 处理选项
名称 | 说明 |
---|---|
IgnoreCase(忽略大小写) | 匹配时不区分大小写。 |
Multiline(多行模式) | 更改^和$的含义,使它们分别在任意一行的行首和行尾匹配,而不仅仅在整个字符串的开头和结尾匹配。(在此模式下,$的精确含意是:匹配\n之前的位置以及字符串结束前的位置.) |
Singleline(单行模式) | 更改.的含义,使它与每一个字符匹配(包括换行符\n)。 |
IgnorePatternWhitespace(忽略空白) | 忽略表达式中的非转义空白并启用由#标记的注释。 |
ExplicitCapture(显式捕获) | 仅捕获已被显式命名的组。 |
需要注意的是多行模式和单行模式并不冲突。
Java中使用正则表达式
- String的match方法
判断字符串s是否匹配正则表达式reg : s.match(reg)//匹配返回false,否则返回true. - Pattern 类
import java.util.regex.*;
class RegexExample1{
public static void main(String args[]){
String content = " hongdou " +
"loves hongyu with all his heart and soul.";
String pattern = "hongdou.*love.*hongyu";
boolean isMatch = Pattern.matches(pattern, content);
System.out.println("hondou loves hongyu : " + isMatch);
}
}
- Matcher 类
import java.util.regex.*;
class RegexExample2{
public static void main(String args[]){
String content = " hongdou " +
"loves hongyu with all his heart and soul.";
String pattern = "\\b\\w+\\b"; //匹配单词
Matcher matcher= Pattern.compile(pattern).match(content);
// 将所有符合正则表达式的子串打印
while(matcher.find()) {
System.out.println(matcher.group());
}
}
}