python爬虫学习(2)——网页下载器与urllib2模块

    本机环境使用的是python2.7.x,自带urllib2模块,不需要对拓展包进行安装,因此,直接import utllib2即可。

    urllib2下载网页的内容,其实是将网络中返回给浏览器的前端代码,包括html,js等内容收集过来。因此,我们得到的其实是一段包含html、js代码内容组成的字符串。

    使用urllib2下载网页内容可以选择如下几种方式:

(1)直接下载

本方法适用于不需要用户输入任何信息的网页,例如获取百度首页的信息或某大学首页的信息。直接提供一个真实可靠的网址即可获取内容。

当你输入这几行代码,并且getcode返回的是200,那么证明你下载内容成功了。

response.read()

输出你获得的内容

类似这样的字符串,是其所返回的代码内容。

(2)添加header等内容的url


来自慕课网

有时一些网站只支持浏览器发送出的请求,所以需要将爬虫伪装成浏览器,因此要在header中添加相应的参数。


(3)添加特殊情景的下载器


来自慕课网


cj为获得的cookie的内容

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,991评论 19 139
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 173,548评论 25 708
  • 发现 关注 消息 iOS 第三方库、插件、知名博客总结 作者大灰狼的小绵羊哥哥关注 2017.06.26 09:4...
    肇东周阅读 12,255评论 4 61
  • 哈喽 文档发网上
    alan2ring阅读 96评论 0 0
  • “报……报……报城主” “说,何事如此慌张”,穆云龙站在九天神雷之下,不带有一丝表情,嘴唇微微张开说道。 士兵深吸...
    幽冥录黄泉笔阅读 241评论 0 0