慕课笔记--python原生爬虫“笔记”

之所以叫“笔记”,并非原创,只是总结。原创作者是慕课老师--七月,很喜欢他的课买了他很多课(打个广告)。仅供学习交流。

爬虫分析

熊猫tv.png

----需求:对一个直播网站的某个分类模块人气进行排名。

----分析:对图中红色区域“video-nickname”、“video-number”进行抓取和排序。

----代码实现:这里是对正则表达式的及python语法的一些考核。


具体代码实现

第一阶段:发起网络请求请求到所需分析的html页面

# 引入网络框架
from urllib import request


class Spider:
    url = 'https://www.panda.tv/cate/lol?pdt=1.24.s1.3.4jhlkpnlco3'
#第一阶段:发起网络请求请求到所需分析的html页面
    def __fetch_content(self):

        r = request.urlopen(Spider.url)
        html = r.read()
        html = str(html, encoding='utf-8')
        print(html)

    def run(self):
        self.__fetch_content()#第一阶段


spider = Spider()
spider.run()

第二阶段:分析这个html页面,提取到我们所要关注的标签

# 引入网络框架\正则框架
from urllib import request
import re


class Spider:
    url = 'https://www.panda.tv/cate/lol?pdt=1.24.s1.3.4jhlkpnlco3'
    root_pattern = '<div class="video-info">([\s\S]*?)</div>'
    #第二阶段
    # \s 匹配空白字符,\S 匹配非空白字符 []字符集
    # *匹配*号前面的字符0次或跟多次 ?非贪婪 匹配到<d就结束了

    def __fetch_content(self):

        r = request.urlopen(Spider.url)
        html = r.read()
        html = str(html, encoding='utf-8')
        return html
#第二阶段:分析这个html页面,提取到我们所要关注的标签
    def __analysis(self, html):
        root_html = re.findall(Spider.root_pattern, html)
        print(root_html[0])

    def run(self):
        html = self.__fetch_content()
        self.__analysis(html)


spider = Spider()
spider.run()

获得到结果:


获得所需.png

第三阶段:获取“video-nickname”、“video-number”

# 引入网络框架\正则框架
from urllib import request
import re


class Spider:
    url = 'https://www.panda.tv/cate/lol?pdt=1.24.s1.3.4jhlkpnlco3'
    root_pattern = '<div class="video-info">([\s\S]*?)</div>'
    name_pattern = '</i>([\s\S]*?)</span>'
    # number_pattern = '<span class="video-number">15.1万</span>'
    number_pattern = '<span class="video-number">([\s\S]*?)</span>'
    # \s 匹配空白字符,\S 匹配非空白字符 []字符集
    # *匹配*号前面的字符0次或跟多次 ?非贪婪 匹配到<d就结束了

    def __fetch_content(self):

        r = request.urlopen(Spider.url)
        html = r.read()
        html = str(html, encoding='utf-8')
        return html

    def __analysis(self, html):
        root_html = re.findall(Spider.root_pattern, html)
        anchors = []
        for html in root_html:
            name = re.findall(Spider.name_pattern, html)
            number = re.findall(Spider.number_pattern, html)
            anchor = {"name" :name, "number":number }
            anchors.append(anchor)
        print(anchors[0])

    def run(self):
        html = self.__fetch_content()
        self.__analysis(html)


spider = Spider()
spider.run()

结果
{'name': ['\n 守卫者 ', '\n '], 'number': ['1.9万']}

测试结果.png

继续优化:将空格删除

    # 精炼我们的函数
    def __refine(self, anchors):

        express = lambda anchor: {
            'name': anchor['name'][0].strip(),
            'number': anchor['number'][0]
        }
        return map(express, anchors)

    def run(self):
        html = self.__fetch_content()
        anchors = self.__analysis(html)
        anchors = list(self.__refine(anchors))
        print(anchors)

结果


测试结果.png

第四阶段 对抓取的数据进行排序

# 引入网络框架\正则框架
from urllib import request
import re


class Spider:
    url = 'https://www.panda.tv/cate/lol?pdt=1.24.s1.3.4jhlkpnlco3'
    root_pattern = '<div class="video-info">([\s\S]*?)</div>'
    name_pattern = '</i>([\s\S]*?)</span>'
    # number_pattern = '<span class="video-number">15.1万</span>'
    number_pattern = '<span class="video-number">([\s\S]*?)</span>'
    # \s 匹配空白字符,\S 匹配非空白字符 []字符集
    # *匹配*号前面的字符0次或跟多次 ?非贪婪 匹配到<d就结束了

    def __fetch_content(self):

        r = request.urlopen(Spider.url)
        html = r.read()
        html = str(html, encoding='utf-8')
        return html

    def __analysis(self, html):
        root_html = re.findall(Spider.root_pattern, html)
        anchors = []
        for html in root_html:
            name = re.findall(Spider.name_pattern, html)
            number = re.findall(Spider.number_pattern, html)
            anchor = {"name": name, "number": number}
            anchors.append(anchor)
        return anchors

    # 精炼我们的函数
    def __refine(self, anchors):

        express = lambda anchor: {
            'name': anchor['name'][0].strip(),
            'number': anchor['number'][0]
        }
        return map(express, anchors)

    # 根据number字段值进行排序
    def __sort_anchors(self, anchors):
        anchors = sorted(anchors, key=self.__sort_seed, reverse=True)
        return anchors

    def __sort_seed(self, anchor):
        r = re.findall("\d*", anchor['number'])
        number = float(r[0])
        if '万'in anchor['number']:
            number *= 10000

        return number

    def __show(self, anchors):
        for anchor in anchors:
            print(anchor['name']+'-----'+anchor['number'])

    def run(self):
        html = self.__fetch_content()
        anchors = self.__analysis(html)
        anchors = list(self.__refine(anchors))
        anchors = self.__sort_anchors(anchors)
        self.__show(anchors)


spider = Spider()
spider.run()

测试结果


测试结果.png

最后显示小小的优化:

 def __show(self, anchors):

        # for anchor in anchors:
          # print(anchor['name']+'-----'+anchor['number'])

        for rank in range(0, len(anchors)):
            print('rank'+str(rank + 1) + "----" +
                  anchors[rank]['name'] + "----" +
                  anchors[rank]['number'])

测试结果:


测试结果.png

撒花。。。。花

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,193评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,306评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,130评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,110评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,118评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,085评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,007评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,844评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,283评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,508评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,667评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,395评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,985评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,630评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,797评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,653评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,553评论 2 352

推荐阅读更多精彩内容

  • 第一部分 HTML&CSS整理答案 1. 什么是HTML5? 答:HTML5是最新的HTML标准。 注意:讲述HT...
    kismetajun阅读 27,472评论 1 45
  • 文-Flyingstraw (2) 初遇师兄 信发出去后,就如石沉大海。 伊雅发现自已就象武装到牙齿的战士找不到对...
    d3d70a4a69fc阅读 219评论 2 0
  • 我把脚步放慢 很轻很轻…… 不愿惊扰了你的 云淡风轻 就算被伤得很重很重 依然不能喊疼 一次一次 还是学不会 云淡...
    K德宏阅读 392评论 3 3
  • 踏着清风与明月,鼻息之间传来青草的味道,我们结束了今天精彩的晚会。
    城半生阅读 157评论 0 0