数据挖掘_通过字典列表批量抓取网页数据

在进行网页数据抓取时我们要先安装一个模块

requests

通过终端安装如下图

安装示意图

因为我之前安装过了,所以不会显示安装进度条,安装也非常简单,如果你配置好环境变量的话,你只需要执行以下命令

pip install requests

如果提示要升级,就按下面升级pip

pip install --upgrade pip

安装完模块后我们正式开始进行数据爬取

先说一下requests的用法,导入这个模块后,你只需要调用一下get方法,就能获取网页的内容了

例如,爬取我的博客首页,这个单网页

In [1]: import requests

In [2]: resp = requests.get("http://www.susmote.com")

In [3]: resp.encoding = "utf-8"

In [4]: type(resp.text)

Out[4]: str

In [5]: content = resp.text[0:100]

In [6]: print(content)

首先导入,然后调用get方法,里面接你要爬取的网页

注意:必须要加http:头,不然会报错

然后在第三步,我们更改了默认编码,这个取决于你要爬取网页的编码格式,如果不更改,极大可能会出行乱码,或是一些没有看过的字符

在第五步,我们把爬取网页内容的前50个字符赋值给了content,以便之后查看,因为网页内容太多,不能一次全部打印出来,所以我们决定切片输出一部分内容

最后一步,我们打印出刚才保存的一部分内容

前面只是提前熟悉一下爬取数据的步骤,接下来我们通过列表字典批量获取数据,然后把它保存为一个文件

首先定义一个字典,存储我们要抓取页面的网址


urls_dict = {

    '特克斯博客': 'http://www.susmote.com/',

    '百度': 'http://www.baidu.com',

    'xyz': 'www.susmote.com',

    '特克斯博客歌单区1': 'https://www.susmote.com/?cate=13',

    '特克斯博客歌单区2': 'https://www.susmote.com/?cate=13'

}

然后我们在定义一个列表,也是存储抓取页面的网址

urls_lst = [

    ('特克斯博客', 'http://www.susmote.com/'),

    ('百度', 'http://www.baidu.com'),

    ('xyz', 'www.susmote.com'),

    ('特克斯博客歌单区1', 'https://www.susmote.com/?cate=13'),

    ('特克斯博客歌单区2', 'https://www.susmote.com/?cate=13')

]

然后我们先利用字典来抓取

代码如下:

利用字典抓取


crawled_urls_for_dict = set()

for ind, name in enumerate(urls_dict.keys()):

    name_url = urls_dict[name]

    if name_url in crawled_urls_for_dict:

        print(ind, name, "已经抓取过了.")

    else:

        try:

            resp = requests.get(name_url)

        except Exception as e:

            print(ind, name, ":", str(e)[0:50])

            continue

        resp.encoding = "utf8"

        content = resp.text

        crawled_urls_for_dict.add(name_url)

        with open("bydict_" + name + ".html", 'w', encoding='utf8') as f:

            f.write(content)

            print("抓取完成 : {} {}, 内容长度为{}".format(ind, name, len(content)))

首先定义一个空集合,以保存我们抓取完数据的网址,以避免重复抓取

后面我们通过for循环和枚举,遍历每一个字典的键和值,把每一抓取的网址存进开始定义的集合crawled_urls_for_dict

然后我们判断要抓取的网址,是否已经保存在集合中,如果存在,就输出已经抓取过了

如果没有,再进行后面的操作,在这里我们为了防止程序出错,影响程序的整体运行,我们在这里使用了try except 语句来打印出错的异常,这样能保证程序能完整运行

然后无非和我之前说的一样,改编码格式,暂时保存内容

只是最后我们通过创建一个文件来保存爬取下来的网页文件,这个我就不详细解释了,无非就是加了个后缀

在后面我们打印抓取的网页地址

for u in crawled_urls_for_dict:

    print(u)

然后我们利用列表来抓取数据

代码如下

# 利用列表抓取

crawled_urls_for_list = set()

for ind, tup in enumerate(urls_lst):

    name = tup[0]

    name_url = tup[1]

    if name_url in crawled_urls_for_list:

        print(ind, name, "已经抓取过了.")

    else:

        try:

            resp = requests.get(name_url)

        except Exception as e:

            print(ind, name, ":", str(e)[0:50])

            continue

        resp.encoding = "utf8"

        content = resp.text

        crawled_urls_for_list.add(name_url)

        with open('bylist_' + name + ".html", "w", encoding='utf8') as f:

            f.write(content)

            print("抓取完成:{} {}, 内容长度为{}".format(ind, name, len(content)))

原理上跟前面的字典一样,我就不做过多解释了

只是要注意这是一个嵌套的列表,遍历的时候要注意一下

最后也是一样

for u in crawled_urls_for_list:

    print(u)

打印抓取过的数据

运行结果如下图

susmotedeMacBook-Air:FirstDatamining susmote$ python main.py

抓取完成 : 0 特克斯博客, 内容长度为26793

抓取完成 : 1 百度, 内容长度为2287

2 xyz : Invalid URL 'www.susmote.com': No schema supplied.

抓取完成 : 3 特克斯博客歌单区1, 内容长度为21728

4 特克斯博客歌单区2 已经抓取过了.

http://www.susmote.com/

http://www.baidu.com

https://www.susmote.com/?cate=13

------------------------------------------------------------

抓取完成:0 特克斯博客, 内容长度为26793

抓取完成:1 百度, 内容长度为2287

2 xyz : Invalid URL 'www.susmote.com': No schema supplied.

抓取完成:3 特克斯博客歌单区1, 内容长度为21728

4 特克斯博客歌单区2 已经抓取过了.

http://www.susmote.com/

http://www.baidu.com

https://www.susmote.com/?cate=13

文件目录变化如下

目录结构

用浏览器打开如下图

特克斯博客 www.susmote.com

特克斯博客

百度网站 www.baidu..com

百度首页

到这里,简单的数据抓取就讲完了

欢迎访问我的官网

www.susmote.com

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,423评论 6 491
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,147评论 2 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,019评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,443评论 1 283
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,535评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,798评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,941评论 3 407
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,704评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,152评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,494评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,629评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,295评论 4 329
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,901评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,742评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,978评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,333评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,499评论 2 348