初步总结
- 虽然以后可能不一定走这个方向,不过作为搜集数据的一种方式,而且是强有力的方式,爬虫还是值得入门一下的,毕竟大数据的时代嘛,很多基础的思想也是需要了解的
主要实现方式
- 通常来说爬虫是抓取数据的一种方式,这个思路很像卷福扮演图灵研究第一台计算机破解密码的思路,就是通过页面的表象,直接获取数据,再整理成我们想要的形式,对网站怎么表述没什么考量,也不用研究
几个主要构成
- 获取页面信息
将庞大的json格式数据全部抓取 - 正则筛选
在庞大的数据中,找出我们想要的数据 - 定向下载/爬取
将通过筛选出来的数据/url进行定向获取,并整理成我们需要的格式
主流工具使用
这里其实有个原则,各种花里胡哨的架构原则上是有用的,不过也要建立在合适的需求之上,如果只是想针对性的获取某些小量数据,完全没必要将很多大的架构研究清楚,作为高级语言,py很大概率能够几行代码就能实现基础功能
裸奔
最简单粗暴的方法,最基础的四个环节
urlopen() #获取整个页面数据
read() #将获取的数据保存起来
re.findall() #匹配正则表达式
urlretrieve() #将匹配到的数据进行定向爬取
scrapy
慢慢研究中。。。