理解正则表达式中的回溯

前段时间看了《高性能JavaScript》一书,其中一章讲到了正则表达式中的回溯对性能的影响。当时看的时候一知半解,现在利用这篇文章重新学习一遍。

两个量词

这两个量词是理解下面第二个例子的前提。

  • 贪婪量词*,重复零次或多次——匹配尽量多的次数
  • 非贪婪量词*?,又称懒惰量词——匹配零次或多次,但求尽量少匹配

两个例子

/h(ello|appy) hippo/.test("hello there, happy hippo");

此正则表达式匹配“hello hippo”或“happy hippo”。

测试一开始,它要查找一个h,目标字符串的第一个字母恰好就是h,它立刻就被找到了。

接下来,子表达式(ello|appy)提供了两个处理选项(分支)。正则表达式首先选择最左边的选项,检查ello是否匹配字符串的下一个字符,确实匹配。然后正则表达式又匹配了后面的空格。再下一步hippo中的h不能匹配字符串中的下一个字母t。

这时就要回溯了,因为前面遇到过分支,我们要试试别的分支的情况。

另一个分支是appy,显然不能匹配hello,并且已经没有别的分支了。所以正则表达式认为从字符串的第一个字符开始匹配是不能成功的,因此它从第二个字符开始,重新进行查找。

它没有找到h,所以就继续向后找,直到第14 个字母才找到,它匹配happy的那个h。

然后它再次进入分支过程。这次ello未能匹配,然后进行第二次回溯,最终它匹配了整个字符串“happy hippo”。

如果看了上面的文字还不是很清楚,下面这张表或许能更好理解一点。

过程 正则 文本 结果
1 h(ello|appy) hippo hello there, happy hippo 匹配
2 h(ello|appy) hippo hello there, happy hippo 匹配
3 h(ello|appy) hippo hello there, happy hippo 不匹配,回溯
4 h(ello|appy) hippo hello there, happy hippo 不匹配
5 h(ello|appy) hippo hello there, happy hippo 第二个字符不匹配
6 h(ello|appy) hippo hello there, happy hippo 第三个字符不匹配
7-17 ... ... ...
18 h(ello|appy) hippo hello there, happy hippo 匹配
19 h(ello|appy) hippo hello there, happy hippo 不匹配,回溯
20 h(ello|appy) hippo hello there, happy hippo 匹配
21 h(ello|appy) hippo hello there, happy hippo 匹配
22 h(ello|appy) hippo hello there, happy hippo 匹配
23 h(ello|appy) hippo hello there, happy hippo 匹配
24 h(ello|appy) hippo hello there, happy hippo 匹配
25 h(ello|appy) hippo hello there, happy hippo 完全匹配

下面我们再来看看带重复量词回溯的例子。

var str = "<p>Para 1.</p>" +
      "<img src='smiley.jpg'>" +
      "<p>Para 2.</p>" +
      "<div>Div.</div>";

/<p>.*<\/p>/i.test(str);

正则表达式一上来就匹配了字符串开始的三个字母<p>,然后是.*,点号匹配除换行符以外的任意字符,星号也就是贪婪量词,会尽可能多地匹配。因为目标字符串中没有换行符,它将吞噬剩下的全部字符串!

不过正则表达式模板中还有更多内容需要匹配,所以正则表达式尝试匹配<。它在字符串末尾匹配不成功,所以它每次回溯一个字符,继续尝试匹配<,直到它回到</div>标签的<位置。

然后它尝试匹配/(转义反斜杠),匹配成功,然后是p,匹配不成功。

正则表达式继续回溯,重复此过程,直到第二段末尾时它终于匹配了</p>。匹配返回成功,它从第一段头部一直扫描到最后一个的末尾,这可能不是你想要的结果,因为匹配结果包含了</p>和<p>。

下面还是用表格来显示匹配过程:

过程 正则 文本 结果
1 <p>.*</p> <p>Para 1.</p>text<p>Para 2.</p><div>Div.</div> 匹配
2 <p>.*</p> <p>Para 1.</p>text<p>Para 2.</p><div>Div.</div> 匹配
3 <p>.*</p> <p>Para 1.</p>text<p>Para 2.</p><div>Div.</div> 不匹配,回溯
4 <p>.*</p> <p>Para 1.</p>text<p>Para 2.</p><div>Div.</div> 不匹配,继续回溯
5-7 ... ... ...
8 <p>.*</p> <p>Para 1.</p>text<p>Para 2.</p><div>Div.</div> 匹配
9 <p>.*</p> <p>Para 1.</p>text<p>Para 2.</p><div>Div.</ div> 匹配
10 <p>.*</p> <p>Para 1.</p>text<p>Para 2.</p><div>Div.</div> 不匹配,回溯
11 <p>.*</p> <p>Para 1.</p>text<p>Para 2.</p><div>Div .</div> 不匹配,继续回溯
12-18 ... ... ...
19 <p>.*</p> <p>Para 1.</p>text<p>Para 2.</p><div>Div.</div> 匹配
20 <p>.*</p> <p>Para 1.</p>text<p>Para 2.</p><div>Div.</div> 不匹配,回溯
21 <p>.*</p> <p>Para 1.</p>text<p>Para 2.</p><div>Div.</div> 不匹配,继续回溯
22-23 ... ... ...
24 <p>.*</p> <p>Para 1.</p>text<p>Para 2.</p><div>Div.</div> 匹配
25 <p>.*</p> <p>Para 1.</p>text<p>Para 2.</ p><div>Div.</div> 匹配
26 <p>.*</p> <p>Para 1.</p>text<p>Para 2.</p><div>Div.</div> 匹配
27 <p>.*</p> <p>Para 1.</p>text<p>Para 2.</p><div>Div.</div> 完全匹配

注:上面第2步其实是会经过多次向后查找匹配,直到遇到换行符,因为目标字符串没有换行符,所以会一直匹配到字符串结尾。

如果要匹配单个段落,那么懒惰量词*?就派上用场了。懒惰量词的回溯工作以相反方式进行。当正则表达式推进到.*?时,它首先尝试全部跳过然后继续匹配</p>。最后它找到了第一个</p>。

还是以表格方式来显示匹配过程吧:

过程 正则 文本 结果
1 <p>.*</p> <p>Para 1.</p>text<p>Para 2.</p><div>Div.</div> 匹配
2 <p>.*</p> <p>Para 1.</p>text<p>Para 2.</p><div>Div.</div> 尝试匹配0次,不成功
3 <p>.*</p> <p>Para 1.</p>text<p>Para 2.</p><div>Div.</div> 不匹配
4-8 ... ... ...
9 <p>.*</p> <p>Para 1.</p>text<p>Para 2.</p><div>Div.</div> 匹配
10 <p>.*</p> <p>Para 1.</ p>text<p>Para 2.</p><div>Div.</ div> 匹配
11 <p>.*</p> <p>Para 1.</p>text<p>Para 2.</p><div>Div.</div> 匹配
12 <p>.*</p> <p>Para 1.</p> text<p>Para 2.</p><div>Div.</div> 完全匹配

如果目标字符串只有一个段落,你可以看到此正则表达式的贪婪版本和懒惰版本是等价的,但是他们尝试匹配的过程不同。

参考:
http://www.cnblogs.com/aaronjs/archive/2012/06/30/2570805.html
https://zhuanlan.zhihu.com/p/27417442

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,904评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,581评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,527评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,463评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,546评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,572评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,582评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,330评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,776评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,087评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,257评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,923评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,571评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,192评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,436评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,145评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,127评论 2 352

推荐阅读更多精彩内容