Python 实战:week2 设计断点续传程序

作业代码:

#!/usr/bin/env python
# coding: utf-8

import time

from bs4 import BeautifulSoup
import requests
from pymongo import MongoClient

client = MongoClient('localhost', 27017)
bj58 = client['bj58']
info_links = bj58['links']
detailinfo = bj58['detailinfo']


def get_links_url():
    """获取列表页中所有详情页的标题和链接"""
    for num in range(1,117):
        url = "http://bj.58.com/shoujihao/pn{}/".format(num)
        web_data = requests.get(url)
        time.sleep(1)
        detail_soup = BeautifulSoup(web_data.text, 'lxml')
        if num == 1:
            boxlist = detail_soup.select("div.boxlist div.boxlist")[1]
        else:
            boxlist = detail_soup.select("div.boxlist div.boxlist")[0]
        titles = boxlist.select("strong.number")
        links = boxlist.select("a.t")

        for title,link in zip(titles,links):
            data = {"title":title.get_text(), "link":link.get("href")}
            info_links.insert_one(data)

        print "page %s 已完成"% num

# get_links_url()


def get_item_info():
    """获取详情页url,抓取详情信息"""

    # url 列表
    url_lists = [item['link'] for item in info_links.find()]
    if detailinfo.find().count() > 0:  # 判断是否中断过
        item_lists = [item['url'] for item in detailinfo.find()]
        url_lists = set(url_lists)-set(item_lists)  # 获取未爬取的 url 子集

    for url in url_lists:
        item_data = requests.get(url)
        detail_soup = BeautifulSoup(item_data.text, 'lxml')

        number = list(detail_soup.select("h1")[0].stripped_strings)[0]
        info_list = number.replace('\t','').replace(' ',"").replace('\n\n\n','\n').split("\n")
        # print 'number= ',info_list[0]
        # print 'isp= ', info_list[1]

        price = list(detail_soup.select(".price")[0].stripped_strings)[0].split(' ')[0]
        # print 'price= ', price

        seller = detail_soup.select(".vcard a.tx")[0].get_text()
        # print seller

        telephon = list(detail_soup.select(".arial")[0].stripped_strings)[0]
        # print tele

        data = {"sell_number": info_list[0],
                "isp": info_list[1],
                "price": price,
                "seller": seller,
                "telephon": telephon,
                "url": url
               }

        detailinfo.insert_one(data)
        print "%s 已完成"% str(url)

get_item_info()

作业项目地址

小结

  • thread & process

单进程单线程,一张一个人的桌子
单进程多线程,一张多个人的桌子
多进程单线程,多张一个人的桌子
多进程多线程,多张多个人的桌子

一个进程占用一个CPU核心

deciding between subprocess, multiprocessing and thread in Python?

What is the difference between multiprocessing and subprocess?

subprocess + multiprocessing - multiple commands in sequence

multiprocessing 官方文档

threading 官方文档的说明:

CPython的实现细节:在CPython中,由于全局解释器锁GIL的原因,同一时刻只有一个线程可以执行Python代码。如果想让应用程序更好地利用多核机器的硬件资源,建议使用multiprocessing。不过,如果想同时运行多个I/O密集型任务,threading仍然是一个好的模型。

  • 导入需要的库

可以帮助 Python 调用电脑 CPU 的多个内核完成任务

from multiprocessing import Pool

  • 导入自己写的模块
from channel_extract import channel_list
from page_parsing import get_links_from
  • 用函数传入页码
def get_all_links_from():

传入 channel ,指定页数,获取列表页的url

  • 创建进程池

所有 CPU 都会从进程池中领取任务

只需要将函数放入进程池,就会被分配给 cpu 执行

pool = Pool() # 创建进程池
pool.map(get_all_links_from, channel_list.split())

Pool有一个参数,precesses,明确要开多少进程。并非进程越多效率越高。如果不指定,会根据电脑CPU的内核数量自动分配。

内建函数map()

pool.map()类似内建函数map()(它只支持一个iterable参数)。调用函数后会被阻塞,直到得到结果。

  • 创建用来计数的监控程序

导入创建的 集合对象,使用.count()方法

  • iTerm 分屏

command + d

  • 作业的思考

断点续传程序,假设在抓取过程中网络问题导致程序停止,设计一个功能,保证数据库中抓取的数据不会重复

两种想法:

  • 第一种

每次抓取一个帖子或一个页面,在数据库中查询,如果有结果,跳过。

这样似乎效率很低?

  • 第二种

记录当前位置

  • 最后看了作业提示:

很棒的实现方式

# 设计思路:
# 1.分两个数据库,第一个用于只用于存放抓取下来的 url (ulr_list);第二个则储存 url 对应的物品详情信息(item_info)
# 2.在抓取过程中在第二个数据库中写入数据的同时,新增一个字段(key) 'index_url' 即该详情对应的链接
# 3.若抓取中断,在第二个存放详情页信息的数据库中的 url 字段应该是第一个数据库中 url 集合的子集
# 4.两个集合的 url 相减得出圣贤应该抓取的 url 还有哪些


db_urls = [item['url'] for item in url_list.find()]     # 用列表解析式装入所有要爬取的链接
index_urls = [item['url'] for item in item_info.find()] # 所引出详情信息数据库中所有的现存的 url 字段
x = set(db_urls)                                        # 转换成集合的数据结构
y = set(index_urls)
rest_of_urls = x-y                                      # 相减

于是,在自己的代码中:

url_lists = [item['link'] for item in info_links.find()]
if detailinfo.find().count() > 0:  # 判断是否中断过
    item_lists = [item['url'] for item in detailinfo.find()]
    url_lists = set(url_lists)-set(item_lists)  # 获取未爬取的 url 子集
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,922评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,591评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,546评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,467评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,553评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,580评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,588评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,334评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,780评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,092评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,270评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,925评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,573评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,194评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,437评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,154评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,127评论 2 352

推荐阅读更多精彩内容