一、为什么必须要有正则表达式
正则表达式(regular expression)描述了一种字符串匹配的模式(pattern),可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。
在我们使用xpath和css选择器时只能取到html标签下的一段字符串,比如我们要取知乎回答下的时间,有的是“发布于 13:57”,有的是“发布于 昨天 13:50”,还有的是“发布于 2016-03-17”。如果我们不用正则表达式,而用其他替代方案,比如多个if else,或者replace,处理起来是非常繁琐的。
本文章将介绍几种非常常用的特殊字符,学会了使用这些字符将会解决98%爬虫需要做字符串提取的工作。
二、正则表达式最常见的字符
1)特殊字符:就是一些有特殊含义的字符。 $ () * + . [ ? \ ^ { |
2)限定符:用来指定正则表达式的一个给定组件必须要出现多少次才能满足匹配。* + ? {n} {n,} {n,m}
3)定位符:用来描述字符串或单词的边界。^ $
4)其他字符:\w \W \s \S \d
我先不介绍这些字符有什么含义,我们直接进入python示例
三、正则表达式的简单应用及python示例
3.1、介绍^ . * $的用法
1)^ 匹配输入字符串开始的位置。
2). 匹配除换行符 \n 之外的任何单字符。
3)* 匹配前面的子表达式零次或多次。
4)$ 匹配输入字符串的结尾位置。
3.2、介绍() ?用法
1)()标记一个子表达式的开始和结束位置。
2)?匹配前面的子表达式零次或一次,或指明一个非贪婪限定符。
3.3、介绍+ {n} {n,} {n,m}用法
1)+匹配前面的子表达式一次或多次。例如,'zo+' 能匹配 "zo" 以及 "zoo",但不能匹配 "z"。+ 等价于 {1,}。
2){n} n 是一个非负整数。匹配确定的 n 次。例如,'o{2}' 不能匹配 "Bob" 中的 'o',但是能匹配 "food" 中的两个 o。
3){n,} n 是一个非负整数。至少匹配n 次。例如,'o{2,}' 不能匹配 "Bob" 中的 'o',但能匹配 "foooood" 中的所有 o。'o{1,}' 等价于 'o+'。'o{0,}' 则等价于 'o*'。
4){n,m} m 和 n 均为非负整数,其中n <= m。最少匹配 n 次且最多匹配 m 次。例如,"o{1,3}" 将匹配 "fooooood" 中的前三个 o。'o{0,1}' 等价于 'o?'。请注意在逗号和两个数之间不能有空格。
3.4、介绍|[123] [0-9] [^1]用法
1)|指明两项之间的一个选择。
2)[123] 只要是123中的其中一个即可。
3)[0-9] 只要是0-9中的任意数字即可。
4)[^1] 非,只要不是1即可。
3.5、介绍\s \S \w \W \d用法
1)\s匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。
2)\S匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。
3)\w 等价于[A-Za-z0-9_]。
4)\W 与\w相反。
5)\d 所有数字,等价于[0-9]。