正则表达式

以前每次要用到正则表达式都会到处去找资料看看元字符、限定符有哪些,怎么去用。用的很不熟悉,于是特意花了一个晚上去好好学学。写这篇博客对学到知识做一个的总结,也给以后做个参考吧,毕竟如果不经常用的话可能又会忘掉。
正则在线测试工具

什么是正则表达式

正则表达式是用于进行文本匹配的工具,就把正则表达式理解成一个字符串匹配规则,可以根据这个规则在文本中找到你想要的字符串部分。
接下来直接从元字符、字符转义、重复、字符类、反义、分枝条件、分组、向后引用这些来做个小归纳。

1 元字符(metacharacter)

元字符 说明
. 匹配除换行以外的任意字符
\d 匹配数字
\s 匹配空白符(空格符' '、水平制表符'\t'、垂直制表符'\v'、换行符'\n'、回车符'\r')
\w 匹配字母\数字\下划线\汉字
\b 匹配单词的开始或结束
^ 匹配字符串的开始
$ 匹配字符串的结束

例子

  1. \bhongyu\w*\b 匹配以hongyu开头的单词。
  2. ^\d{5,12}$ 匹配一个含有5到12位数字的字符串。

2 字符转义

当要匹配特殊字符本身时,用\来取消特殊字符的特殊意义

字符 表示
. \.
* \*
\ \\
^ \^
$ \$

例子

  1. c:\\windows匹配c:\windows。
  2. hongdou \^ hongyu匹配hongdou ^ hongyu。

3 重复

代码/语法 说明
* 重复零次或更多次
+ 重复一次或更多次
? 重复零次或一次
{n} 重复n次
{n,} 重复n次或更多次
{n,m} 重复n到m次

例子

  1. hi \w+ 匹配以hi 开头后面跟一个或多个字符的字符串。
  2. 134\d{8} 匹配以134开头的11位数字的字符串。

4 字符类

  1. [aeiou] 匹配 任何一个元音字母 a,e,i,o,u
  2. [a-z0-9A-Z] 匹配任意一个a-z或0-9或A-Z的字符

5 反义

代码/语法 说明
\W 匹配任意不是字母和数字的字符
\S 匹配任意不是空白符的字符
\D 匹配任意非数字的字符
\B 匹配不是单词开头或结束的位置
[^x] 匹配除了x以外的任意字符
[^aeiou] 匹配除了aeiou这几个字母以外的任意字符

6 分枝条件

就类似于或,比方说你想匹配两种号码的任意一种:一种是三位区号,8位本地号(如010-12345678),一种是4位区号,7位本地号(0376-2233445)。可以用 0\d{2}[- ]?\d{8}|0\d{3}[- ]?\d{7}
两个条件用 | 隔开。使用分枝条件时,要注意各个条件的顺序,如\d{5}|\d{5}-\d{4},那么就只会匹配5位的数字串(以及9位数字串的前5位)。原因是匹配分枝条件时,将会从左到右地测试每个条件,如果满足了某个分枝的话,就不会去再管其它的条件了。

7 分组

前面提到的重复部分的例子都是针对于单个字符进行的,那么如果要重复多个字符时,就要用到分组了。

例子

  1. ((2[0-4]\d|25[0-5]|[01]?\d\d?).){3}(2[0-4]\d|25[0-5]|[01]?\d\d?):
    ((2[0-4]\d|25[0-5]|[01]?\d\d?).)这个整体(分组)重复三次({3}),这是匹配一个IP地址。

8 向后引用

当使用一个小括号制定子表达式后,匹配到的文本希望在后面能用于匹配 ,默认的情况下,每个分组会自动有一个组号,组号从左到右,以分组的左括号为标志,第一个出现的为1,第二个为2,以此类推。后面要用的某族匹配的文本时,用\组名,如\1代表分组1匹配的文本。

代码/语法 说明
(exp) 匹配exp,并捕获文本到自动命名的组里(及将捕获的文本内容记录下来
(?<name>exp) 匹配exp,并捕获文本到命名为name的组里(也可写成?'name'exp)
(?:exp) 匹配exp,不捕获匹配的文本,也不给次分组分配组号

例子

  1. \b(\w+)\b\s+\1\b 匹配重复的单词,如: ha ha, go go。
  2. \b(?<Word>\w+)\b\s+\k<Word>\b。同1,这里自己定义了分组名Word

9 零宽断言

像\b, ^ , $那样用于指定一个位置,这个位置要满足何种条件(断言),零宽断言用于指定在某些内容前面或者后面要满足什么条件。零宽断言有四种:零宽度正预测先行断言(断言位置的后面匹配表达式exp)、零宽度正回顾后发断言(断言位置的前面匹配表达式exp)、零宽度负预测先行断言(断言位置的后面不能匹配表达式exp)、零宽度负回顾后发断言(断言位置的前面不能匹配表达式exp)

代码/语法 说明
(?=exp) 匹配exp前面的位置
(?<=exp) 匹配exp后面的位置
(?!exp) 匹配后面跟的不是exp的位置
(?<!exp) 匹配前面不是exp的位置

例子

  1. \b\w+(?=ing\b),匹配以ing结尾的单词的前面部分(除了ing以外的部分):I'm singing while you're dancing.时,它会匹配sing和danc。
  2. (?<=\bre)\w+\b,匹配以re开头的单词的后半部分(除了re以外的部分):reading a book时,它会匹配ading。
  3. ((?<=\d)\d{3})+\b,用它对1234567890进行查找时结果是234567890。
  4. \b\wq(?!u)\w\b ,包含后面不是字母u的字母q的单词。
  5. (?<![a-z])\d{7}匹配前面不是小写字母的七位数字。
  6. (?<=<(\w+)>).*(?=</\1>)匹配不包含属性的简单HTML标签内里的内容。

10 贪婪与懒惰

贪婪就是匹配尽可能多的字符,懒惰就是匹配尽可能少的字符。例如对于字符串ababab,用a.b,将匹配到ababab,这个就是 贪婪匹配;用a.?,匹配到的就是ab,这就是懒惰匹配。正则表达式通常的行为是进行贪婪匹配,要将贪婪匹配转换成懒惰匹配,只要在限定符后面加上问好?就行了。以下是懒惰限定符

代码/语法 说明
*? 重复任意次,但尽可能少重复
+? 重复1次或更多次,但尽可能少重复
?? 重复0次或1次,但尽可能少重复
{n,m}? 重复n到m次,但尽可能少重复
{n,}? 重复n次以上,但尽可能少重复

11 处理选项

名称 说明
IgnoreCase(忽略大小写) 匹配时不区分大小写。
Multiline(多行模式) 更改^和$的含义,使它们分别在任意一行的行首和行尾匹配,而不仅仅在整个字符串的开头和结尾匹配。(在此模式下,$的精确含意是:匹配\n之前的位置以及字符串结束前的位置.)
Singleline(单行模式) 更改.的含义,使它与每一个字符匹配(包括换行符\n)。
IgnorePatternWhitespace(忽略空白) 忽略表达式中的非转义空白并启用由#标记的注释。
ExplicitCapture(显式捕获) 仅捕获已被显式命名的组。

需要注意的是多行模式和单行模式并不冲突

Java中使用正则表达式

  1. String的match方法
    判断字符串s是否匹配正则表达式reg : s.match(reg)//匹配返回false,否则返回true.
  2. Pattern 类
import java.util.regex.*; 
class RegexExample1{
      public static void main(String args[]){
      String content = " hongdou " +
       "loves hongyu with all his heart and soul.";
      String pattern = "hongdou.*love.*hongyu"; 
      boolean isMatch = Pattern.matches(pattern, content);
      System.out.println("hondou loves hongyu : " + isMatch);
   }
} 
  1. Matcher 类
import java.util.regex.*; 
class RegexExample2{
      public static void main(String args[]){
      String content = " hongdou " +
       "loves hongyu with all his heart and soul.";
      String pattern = "\\b\\w+\\b"; //匹配单词
      Matcher matcher= Pattern.compile(pattern).match(content);

      // 将所有符合正则表达式的子串打印
      while(matcher.find()) {
            System.out.println(matcher.group());
      }
   }
} 
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,319评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,801评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,567评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,156评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,019评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,090评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,500评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,192评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,474评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,566评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,338评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,212评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,572评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,890评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,169评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,478评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,661评论 2 335

推荐阅读更多精彩内容

  • 本文译自 制作正则引擎的作者 Jan Goyvaerts 为工具 RegexBuddy 写的教程版权归原作者所有注...
    极客圈阅读 3,247评论 0 25
  • 正则表达式到底是什么东西?字符是计算机软件处理文字时最基本的单位,可能是字母,数字,标点符号,空格,换行符,汉字等...
    狮子挽歌阅读 2,129评论 0 9
  • 原文:http://www.jb51.net/tools/zhengze.html 然后强迫症如我,因为我怕网页哪...
    你再不来我要下雪了阅读 829评论 1 6
  • 注:本篇文章只为方便查看,特此保留,如有冒犯,敬请谅解!!! 本文目标 30分钟内让你明白正则表达式是什么,并对它...
    阿杰Alex阅读 1,471评论 0 10
  • 1. 正则表达式 正则表达式,又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法(英语:Regular...
    xiangang阅读 680评论 0 3