对字符串的处理是编程语言中极其常用的一种操作。但是有一些操作却很难直接使用一般的方法来处理。
比如说有一个html文本,你希望找到其中所有的网页链接,这在写爬虫的时候经常用到。我们都知道网页链接,一般来说都是用http(s)开头。而html中的链接,都是在a标签之中的。如果你用一般的字符串操作,想找到其中所有的网页链接,是一件非常难的事。正是因为类似于这样的问题,正则表达式就应运而生了。
正则表达式起源于Perl,现在几乎所有的主流编程语言,都支持正则表达式。在这个在线平台https://regexr.com上测试一下
/http[s]:\/\/[a-zA-Z0-9\.]+/g
//可以匹配下面的字符串
<a herf="https://www.googled.com">google</a>
这就是一个简单的正则匹配。
关于正则的具体规则网上资料非常丰富了,这里不做重复的工作。
本文不涉及正则表达式的规则,只讨论正则在JS中的使用
默认读者有一定的正则基础
大多数编程语言都有相同的正则语法,毕竟后来的编程语言的设计者没必要在这个地方展现他们的个性。不过具体的编程语言的具体使用还是有所区别的,让我们来看一下JS中如何来写正则表达式的。
RegExp Objects
JS把所有正则相关的操作都封装到了对象RegExp.prototype
之中,而每个正则对象都是由RegEx
这个构造函数创建的。同时RegEx
又是ECMAScript规定的内置的函数。这就意味着,所有的JS执行环境,无论是各种浏览器还是nodejs,与正则表达式相关的代码,都是长得都是一模一样的。
创建一个正则对象
语法: new RegExp(pattern[, flags])
Example:
var regexConst = new RegExp('abc');
JS中也支持直接通过字面量的方式创建:
语法: /pattern/flags
Example:
var regexLiteral = /abc/;
接下来我们就来好好使用正则表达式完整一些任务
判断某一个字符串是否符合某些规则
方法:RegExp.prototype.test()
例:设计一个正则规则,判断用户输入的字符串是否有敏感字符翻墙
var string = "hello world, I want to get a free Internet"
var reg = /翻墙/
reg.test(string) // false
如果正则在string中匹配到了字符串就会返回true