重要性
爬取html中内部的内容时经常需要只要标签中的部分内容,这时就需要正则表达式
特殊字符
^ 以一个x内容为开头的
. 代表任何字符
* 表示任意多次
$ 以x结尾的
? 贪婪匹配,从左至右```
也就是会寻找下一组的符合条件的值
x+ 至少出现一次x
{y} 前面的字符至少出现y次
{y,} 前面的字符出现y次及以上
{y,z} 前面的字符出现y到z次
y|z 符合y条件或者z条件即可
() 将正则分组,取值时按组选取
[] 取[x,y,z]中的任何一个都可,或者写成[0~9]则取0到9中任意值,[^x]只要不为x
\s 空格
\S 只要不为空格
\w 任意字符等效于[0~9a~zA~Z_]
\W 只要不为[0~9a~zA~Z_]即可
\d 只要为字即可
eg:
# -*-coding: utf-8 -*-
import re
# 引入re模块,python的正则模块
line = 'bobby1123'
reg_str = '^b.*'
if re.match(reg_str,line):
print('yes')
.*出生于(\d{4}[/-]\d{1,2})