12.爬虫

原生爬虫

真正的爬虫功能非常复杂：
比如反爬机制、自动登录、代理IP等辅助功能
演示python小工具项目应该遵守的规范
顺便通过小案例，聊一下好代码应该如何编写
1.巩固知识
2.合理编码方式
3.了解爬虫基本原理

最开始爬豆瓣
爬取熊猫TV
爬取某个游戏分类下面，主播的人气排行

整理爬虫常规思路

利用chorme查看html结构。
主播名字、观看人数
无论简单的爬虫还是复杂的爬虫，都是通过分析html提取所需要的信息。

爬虫的前奏：
1.明确目的 -- 某一类游戏的主播的排名
2.找到数据的网页

分析网页的结构、找到数据所在的标签位置

模拟http请求，向服务器发送请求，获取服务器返回给我们的html
用正则表达式提取我们需要的数据

vscode中调试代码

断点调试非常重要
python自带的 assert 也是好久没用过了？

html结构分析基本原则二条

抓取的html为bytes，可以采用str函数转换格式
htmls = str(htmls, encodeing="utf-8)
寻找标签：通过标签定位所需要的信息。

数据提取层分析及原则三

3.选择标签时，尽量选取可以闭合的标签。同时将需要爬取的一组数据包裹起来，防止分开爬取

正则分析html

正则分析获取名字和人数

数据精炼

sorted排序

案例总结

import re
from urllib import request


class Spider(object):
    url = "https://www.panda.tv/cate/lol?pdt=1.24.s1.3.7udc0vft7s5"
    # reg = re.compile(
    #     r"""<div[\s]*?class="video-info">[\s\S]*?nickname"[\s]*?title="([\s\S]*?)">[\s\S]*?number">([\s\S]*?)</span>"""
    # )
    # 匹配全部内容 -> [\s\S]  . [\d\D] [\w\W]
    root_pattern = '<div class="video-info">([\s\S]*?)</div>'
    name_pattern = '[\s\S]*?nickname"[\s]*?title="([\s\S]*?)">'
    number_pattern = '[\s\S]*?number">([\s\S]*?)</span>'

    def __feach_content(self):
        r = request.urlopen(Spider.url)
        htmls = r.read()
        return htmls

        # assert htmls, "没有返回值"
        # with open("test.txt", "wb") as f:
        #     f.write(htmls)

    def __analysis(self, htmls):
        # result = Spider.reg.findall(htmls)
        # print(result)
        root_html = re.findall(Spider.root_pattern, htmls)
        re_dict = []
        for result in root_html:
            name = re.findall(Spider.name_pattern, result)
            number = re.findall(Spider.number_pattern, result)
            anchor = {"name": name, "number": number}
            re_dict.append(anchor)

        return re_dict

    def __refine(self, re_dict):
        l = lambda re_dict:{"name": re_dict["name"][0], "number": re_dict["number"][0]}
        return map(l, re_dict)

    def __sort(self, re_dict):
        re_dict = sorted(re_dict, key=self.__sort_seed, reverse=True)
        return re_dict

    def __sort_seed(self, re_dict):  # 排序种子，对应re_dict的一个元素
        r = re.findall("\d*", re_dict["number"])
        number = float(r[0])
        if "万" in re_dict["number"]:
            number *= 10000

        return number

    def __show(self, re_dict):
        for rank in range(0, len(re_dict)):
            print("rank:" + str(rank + 1) + "---" + re_dict[rank]["name"] + "----" + re_dict[rank]["number"])

    def go(self):
        htmls = self.__feach_content()
        htmls = htmls.decode("utf-8")  # 提取大块数据
        re_dict = self.__analysis(htmls)  # 分析数据
        re_dict = self.__refine(re_dict)  # 数据精炼
        re_dict = self.__sort(re_dict)
        self.__show(re_dict)


spider = Spider()
spider.go()

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 196,302评论 5赞 462
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 82,563评论 2赞 373
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 143,433评论 0赞 325
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,628评论 1赞 267
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 61,467评论 5赞 358
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,354评论 1赞 273
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,777评论 3赞 387
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,419评论 0赞 255
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,725评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,768评论 2赞 314
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,543评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,387评论 3赞 315
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,794评论 3赞 300
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,032评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,305评论 1赞 252
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,741评论 2赞 342
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,946评论 2赞 336