概述
正则表达式:(Regular Expression)用于匹配规律规则的表达式,正则表达式最初是科学家 对人类神经系统的工作原理的早期研究,现在在编程语言中有广泛的应用。正则表通常被用来检索、替换那些符合某个模式(规则)的文本。
正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定 字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。
作用
- 给定的字符串是否符合正则表达式的过滤逻辑(匹配)
- 可以通过正则表达式,从字符串中获取我们想要的特定部分(提取)
- 强大的字符串替换能力(替换)
在线测试正则:正则表达式在线测试 | 菜鸟工具 (runoob.com)
语法
在 JavaScript 中,正则表达式也是对象,是一种索引类型,使用一个正则表达式字面量是最简单的方式,两个 /
是正则表达式的定界符。
可以通过下面两种方法创建一个正则表达式:
- 使用一个正则表达式字面量,如:
var reg = /abc/;
正则表达式字面量在脚本加载后编译。若你的正则表达式是常量,使用这种方式可以获得更好的性能。 - 调用 RegExp 对象的构造函数,如:
var re = new RegExp("abc");
相关正则方法
字符串的方法:
方法 | 说明 |
---|---|
split() | 根据匹配字符串切割父字符串 |
match() | 使用正则表达式与字符串相比较,返回一个包含匹配结果的数组。 |
search() | 对正则表达式或指定字符串进行搜索,返回第一个出现的匹配项的下标。 |
replace() | 用正则表达式和字符串直接比较,然后用新的子串来替换被匹配的子串。 |
正则表达式方法:
方法 | 说明 |
---|---|
exec() | 在目标字符串中执行一次正则匹配操作。 |
test() | 测试当前正则是否能匹配目标字符串。 |
例子
split():根据空格切割字符串:'aa bbb c dd eeeeee'
'aa bbb c dd eeeeee'.split(/\s+/)
=> ["aa", "bbb", "c", "dd", "eeeeee"]
search():在 'abcdefg' 中寻找 'cd' 位置。
'abcdefg'.search(/cd/)
=> 2
match():在 'abbcccbbbbbddbbbdabbb' 中查询重复 'b' 字符串。
'abbcccbbbbbddbbbdabbb'.match(/b+/g)
=> ["bb", "bbbbb", "bbb", "bbb"]
replace():将 'www.hello.com' 替换成 'www.byebye.com'
'www.hello.com'.replace(/hello/, 'byebye')
=> "www.byebye.com"
exec():在 'aaaabccccbacabc' 中查找 'abc' 字符串。
var result = /abc/.exec('aaaabccccbacabc')
result
=> ["abc"]
result.index
=> 3
test():判断 'aaddccddabcddeeddfff' 是否包含 'abc' 字符串
/abc/.test('aaddccddabcddeeddfff')
=> true
组成
正则表达式由一些普通字符和一些特殊字符(又叫元字符--metacharacters)组成。普通字符包括大小写 的字母和数字,而元字符则具有特殊的含义。
javascript 中常用特殊字符有 ( ) [ ] { } \ ^ $ | ? * + .
若想匹配这类字符必须用转移符号 \
如:\(
, \^
, \\
预定义特殊字符:
写法 | 正则 | 说明 |
---|---|---|
\t | /\t/ | 制表符 |
\n | /\n/ | 回车符 |
\f | /\f/ | 换页符 |
\b | /\b/ | 空格 |
字符集
简单类: 正则的多个字符对应一个字符,我们可以用 [] 把它们括起来,让 [] 这个整体对应一个字符
[abc] ,例子:o[usb]t——obt、ost、out
范围类: 有时匹配的东西过多,而且类型又相同,全部输入太麻烦,我们可以在中间加了个横线。
[a-z]、[0-9]、[A-Z] ,例子:id[0-9]——id0、id5
负向类: [] 前面加个元字符进行取反,表示匹配不能为括号里面的字符。
[^a] ,例子:o[^0-9]t——oat、o?t、o t
组合类: 允许用中括号匹配不同类型的单个字符。
[0-9a-b] ,例子:o[0-9a-b]t——oat、o?t、o
修饰符
g
修饰符用于执行全局匹配(查找所有匹配而非在找到第一个匹配后停止)。
'12a34b56c78d90e'.match(/\d+/)
=> ["12"]
'12a34b56c78d90e'.match(/\d+/g)
=> ["12", "34", "56", "78", "90"]
i
修饰符用于执行对大小写不敏感的匹配。
'aabAAcAa'.match(/aa/g)
=> ["aa"]
'aabAAcAa'.match(/aa/gi)
=> ["aa", "AA", "Aa"]
边界
^
开头 注意不能紧跟于左中括号的后面
/^hello/.test('hello javascript')
=> true
/^javascript/.test('hello javascript')
=> false
$
结尾
/javascript$/.test('hello javascript')
=> true
/hello$/.test('hello javascript')
=> false
预定义类
预定义类 | 字符集写法 | 说明 |
---|---|---|
. | [^\n\r] | 除了换行和回车之外的任意字符 |
\d | [0-9] | 数字字符 |
\D | [^0-9] | 非数字字符 |
\s | [ \t\n\x0B\f\r] | 空白字符 |
\S | [^ \t\n\x0B\f\r] | 非空白字符 |
\w | [a-zA-Z_0-9] | 单词字符(所有的字母/数字/下划线) |
\W | [^a-zA-Z_0-9] | 非单词字符 |
量词
量词 | 类型 | 说明 |
---|---|---|
{n} | 硬性量词 | 对应零次或者n次 |
{n,m} | 软性量词 | 至少出现n次但不超过m次(中间不能有空格) |
{n,} | 软性量词 | 至少出现n次(+的升级版) |
? | 软性量词 | 出现零次或一次 |
* | 软性量词 | 出现零次或多次(任意次) |
+ | 软性量词 | 出现一次或多次(至少一次) |
分组
虽然量词的出现,能帮助我们处理一排密紧密相连的同类型字符。但这是不够的,我们用中括号 表示范围内选择,大括号表示重复次数。如果想获取重复多个字符,我们就要用小括号进行分组 了。
/(bye){2}/.test('byebye')
=> true
/(bye){2}/.test('bye')
=> false
或操作符
可以使用竖线(|)字符表示或者的关系。
/a|bcd/
匹配 a 或 bcd 字符。
/(ab)+|(cd)+/
匹配出现一次或多次的 ab 或者 cd
反向引用
反向引用标识是对正则表达式中的匹配组捕获的子字符串进行编号,通过 “ \
编号(在表达式中) ” ,“ $
编号(在表达式外) ” 进行引用。从1开始计数。
/(bye)\1/.test('byebye')
=> true
/(bye)\1/.test('bye')
=> false
'123*456'.replace(/(\d{3})\*(\d{3})/, '$2*$1')
=> "456*123"
'123*456'.replace(/(\d{3})\*(\d{3})/, function (match, $1, $2) {
return $2 + '*' + $1
}) => "456*123"
中文字符
匹配中文:[\u4e00-\u9fa5]
/[\u4e00-\u9fa5]+/.test('中文内容')
=> true
/[\u4e00-\u9fa5]+/.test('aaa')
=> false
更多正则表达式相关:正则表达式 - JavaScript | MDN (mozilla.org)