python爬虫学习（2）——网页下载器与urllib2模块

本机环境使用的是python2.7.x，自带urllib2模块，不需要对拓展包进行安装，因此，直接import utllib2即可。

urllib2下载网页的内容，其实是将网络中返回给浏览器的前端代码，包括html，js等内容收集过来。因此，我们得到的其实是一段包含html、js代码内容组成的字符串。

使用urllib2下载网页内容可以选择如下几种方式：

（1）直接下载

本方法适用于不需要用户输入任何信息的网页，例如获取百度首页的信息或某大学首页的信息。直接提供一个真实可靠的网址即可获取内容。

当你输入这几行代码，并且getcode返回的是200，那么证明你下载内容成功了。

response.read()

输出你获得的内容

类似这样的字符串，是其所返回的代码内容。

（2）添加header等内容的url

来自慕课网

有时一些网站只支持浏览器发送出的请求，所以需要将爬虫伪装成浏览器，因此要在header中添加相应的参数。

（3）添加特殊情景的下载器

来自慕课网

cj为获得的cookie的内容

最后编辑于：2017.12.06 04:57:51