正则表达式这个东西,看过很多很多,用过的呢,几乎没有用过,就像现在的工作一般,只有真正去做以前没有做过的,去深入了解以前不了解的,才会发现其实这些都很简单;
正则这个东西,几乎在任何地方都可以用,shell里面、SQL语句里面、xx脚本里面
最近在做一些脚本语句识别的东西,其实关键的地方都是在用正则在做匹配的
以python为例:
import re
pattern = re"^(https?:\/\/)?([\da-z\.-]+)\.([a-z\.]{2,6})([\/\w \.-]*)*\/?$"
match_result = re.findall(pattern, String)
String为想要去用正则匹配的字符串,match_result会得到匹配的结果,匹配的结果会是一个tuple,里面的元素分别为根据表达式依次匹配到的()内的匹配条件,但是只有整个字符串符合整个正则表达式的匹配后,才会获取到匹配结果
已上面的表达式为例,可以从左到右拆分为几个部分:
- "^(https?://)?([\da-z.-]+).([a-z.]{2,6})([/\w .-])/?$": ^表示从字符串起始位置开始匹配
- "^(https?://)?([\da-z.-]+).([a-z.]{2,6})([/\w .-])/?$": ()表示正则表达式捕获的结果会放入一个分组中,https?代表将会匹配http或者https,//表示匹配https后面紧跟的//字符,因为/在正则里面有特殊含义,所以这里需要使用/来对/进行转义,让/代表/本身,括号后面的?代表匹配这个表达式零次或者多次,因为有的url不会带上协议名称
- "^(https?://)?([\da-z.-]+).([a-z.]{2,6})([/\w .-])/?$" :第二个括号里面的[\da-z.-]+, \d代表匹配所有数字,也可以用0-9来表示所有数字a-z代表所有小写字母,.代表url里面的.,因为.在正则里面也是有特殊含义,所以也需要用\来进行转义,-代表url中可能出现的短横杠,然后用[]+把他们括起来表示可以匹配这些字符多次,然后再[]+后面紧跟着一个.,就表示实际上这一段匹配的是类似 xxx.xxx. 的一段url,但是捕获的结果是xxx.xxx,因为最后一个.不在括号里面
- "^(https?://)?([\da-z.-]+).([a-z.]{2,6})([/\w .-])/?$" :之前已经匹配了类似https://xxx.xxx.的字符串,那么就剩最后面的域名了域名应该是com. cn. org. 这种类型的,会有固定的长度,所以这里用了一个长度限定{2,6}限定长度为2到6位
- "^(https?://)?([\da-z.-]+).([a-z.]{2,6})([/\w .-])/?$" :最后的一段([/\w .-])/?$就是匹配可能在.com域名后面的目录名,\w代表所有字母,$代表匹配字符结尾,与最前面的^相呼应,匹配整个输入的字符串