1.scrapy的启动在对应的目录下:
如果在启动过程中出现"win32api"的错误 则pip install pypiwin32
2.正则表达式:
"""
^ 表示以什么开始如:^b表示以b字母开头
. 表示任意字符
* 表示前面的字符可以出现任意多次
$ 表示以什么结束如:3$表示以3结尾
? 表示非贪婪模式,正则表达式默认的是贪婪模式,贪婪模式是从后往前匹配
+ 表示前面的字符至少出现一次
{3}出现的次数 {3,}至少出现3次{3,5}至少出现3次最多5次
|表示或关系
\s 表示空格\S不为空格可以
\w表示[A-Za-z0-9]\W表示不为\w可以
[\u4E00-\u9FA5]表示汉字如line="study in 南京大学"reg=".*?([\u4E00-\u9FA5]+大学)"
\d表示数字
s.decode("gb2312").encode("utf-8")
encode 前面必须是unicode编码
decode是对前面("")格式转化为unicode
python3 不需要在声明,默认全部是unicode
"""