爬取网页的通用代码框架

import requests

def getHTMLText(url):
    try:
        headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36'
               }
        r = requests.get(url,  headers=headers, timeout=30)
        r.raise_for_status()    #如果状态不是200，引发HTTPError异常
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "产生异常"

if __name__ == '__main__':
    url = "http://www.baidu.com"
    print(getHTMLText(url))

最后编辑于：2017.12.06 21:06:06

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

python网络爬虫—爬取网页的通用代码框架及HTTP协议【2】
-Modest_Proud- 一、爬取网页的通用代码框架首先，我们使用Requests库进行网页访问的时候，经...
Modest_Proud阅读 1,770评论 1赞 5
1.Scrapy爬虫之静态网页爬取之二初识scrapy框架及几种常见的爬取方式
1.scrapy框架讲解：
siro刹那阅读 742评论 0赞 0
（原创）从网页上爬取行政区代码并通过身份证号码获取出生地
证监会近日出台了更为严格的风控监管法规，因而我得到了新的需求——重做风险评测，最后一项是要统计用户的居住地。产品设...
mona_alwyn阅读 4,178评论 2赞 2
Scrapy框架结合Spynner采集需进行js,ajax动态加载的网页并提取网页信息（以采集...
对于网页的采集有这样几种:1.静态网页2.动态网页（需进行js,ajax动态加载数据的网页）3.需进行模拟登录后才...
comboo阅读 1,154评论 0赞 8
python爬虫回顾<五>：利用XPath爬取指定网页的标题以及文本
在爬取了政府工作报告以后，一项新的任务又出现了，我们需要人民日报社论的标题以及社论文章进行分析。与上几次不同的是这...
TimLee1996阅读 12,414评论 3赞 4

赞1赞

赞赏

手机看全文