王者荣耀五周年,爬取102个英雄+326款皮肤,分析上线时间

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理

1.概述

《王者荣耀》上线至今5个年头了,作为这些年国内最热门的手游(没有之一),除了带来游戏娱乐之外,我们在这五周年之际,试着从他们的官网找点乐趣,学习一下Python爬虫的一些简单基础操作。

本篇将主要介绍简单的Python爬虫,包括网页分析、数据请求、数据解析和数据保存,适用于基本不带反爬的一些网站,旨在进行学习交流,请勿用作任何商业非法用途。

网页分析其实就是打开你需要请求数据的网页,然后「F12」看下这个网页源数据长啥样(如果你会web知识会更好处理,不过我没系统学过,操作多了就熟悉一点);

数据请求我们用人见人爱的「requests」库,关于该库的更详细用法大家可以去查询该链接了解(https://requests.readthedocs.io/zh_CN/latest/);

数据解析一般视请求的数据格式而定,如果请求的数据是html格式,我将介绍「bs4」和「xpath」两种方式进行解析,若请求的数据是json格式,我将介绍json和eval两种方式进行解析;

数据保存这里分为两种情况,如果是图片类会用到「open」和「write」函数方法,若是文本类的我会用到pandas的「to_excel」保存为表单格式。

2.网页分析

我们在概述说提到请求的数据会有html格式或者json格式,两种情况下其实对应的真实请求地址是有差异的,怎么判断呢,作为初学者我的个人经验就是去试试,本章节两种尝试方案都会介绍,大家在实操中视情况而选吧!

2.1.html页面源数据

以下面这张英雄列表页面为例,按住“「F12」”,然后点一下开发者模式中左上角的那个有鼠标箭头的图标,再在左侧选取你需要的数据区域,在开发者模式区域就会出现这个数据区域的数据信息,比如这里的“详情页地址”、“头像图片地址”和“名称”,我们需要的也算这些信息,所以可以直接请求该链接即可。


2.2.json源数据

对于局内道具列表数据,我们发现上述方案无法获取,那么这种情况下我们可以选择开发者模式中的「Network——>XHR」,然后刷新页面,在name里找啊找,一般就能到了某个数据是我们需要的。


点「Preview」发现里面正是我们需要的源数据,然后在「Headers」里可以找到请求到该源数据的真实链接地址,这里数据请求方式为「get」,我们下一节会介绍。


3.数据请求

我们提到这里用 requests 库进行数据请求,requests 有两种比较常用的请求方式:post和get。刚好这里我们用的到就是get一种即可,另外请求的时候可带很多参数,比如请求头、cookie等等,具体大家查概述中链接文档了解吧。

简单的例子:

importrequests#英雄列表页地址url ='https://pvp.qq.com/web201605/herolist.shtml'resp = requests.get(url)#设置解码方式(由于请求的数据中文乱码,这里进行解码)resp.encoding=resp.apparent_encoding


请求到的html源数据

importrequests#局内道具详情页地址url ='https://pvp.qq.com/web201605/js/item.json'resp = requests.get(url)#设置解码方式(由于请求的数据中文乱码,这里进行解码)resp.encoding=resp.apparent_encoding


局内道具json数据

4.数据解析

对于不同的源数据解析方式不同,html数据解析这里介绍两种比较常用的入门级方式「bs4」和「xpath」,对于「json」数据其实相对来说更好处理,这里介绍两种简单的方式利用「json」和「eval」。

4.1.html数据解析

4.1.1.bs4

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库,它能够通过你喜欢的转换器实现惯用的文档导航、查找、修改文档的方式。

更多操作详情大家可以去看(https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/)~

看html数据结构,我们可以找到想要的数据在「ul」节点,满足「class="herolist clearfix"「下的全部」li」节点中。对于bs4来说,可以用「find_all」方法去定位。(更多解释见代码注释哦)


# bs4 解析frombs4importBeautifulSoup# 先将请求到的数据转化为BeautifulSoup对象soup = BeautifulSoup(resp.text,'html.parser')# 定位全部的满足 class = "herolist clearfix",由于class是关键字所以这里用class_# 返回结果只有1个的列表,因此取索引0ul = soup.find_all('ul', class_="herolist clearfix")[0]# 定位 ul 下面全部的 li,li中藏着我们需要的数据信息lis = ul.find_all('li')# 创建一个空表用于存储数据herolists = []# 遍历全部的liforliinlis:# 创建空字典,用于存储 英雄列表信息herolist = {}# get_text() 获取节点下面的文案部分herolist['英雄名称'] = li.get_text()# get() 获取 具体值,英雄详情页地址在 li节点的子节点a下面herolist['英雄详情页'] = li.find('a').get('href')    herolist['英雄头像'] = li.find('a').find('img').get('src')    herolists.append(herolist)


数据解析结果

4.1.2.xpath

XPath 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历。更多语法操作可以查看(https://www.w3school.com.cn/xpath/xpath_syntax.asp )。

由于本质过程上和bs4差不多,只是语法函数操作不太同,这里不做详细介绍,直接看代码了解下先。

# xpath 解析fromlxmlimportetreehtml = etree.HTML(resp.text)html_ul = html.xpath('//ul[@class="herolist clearfix"]')[0]html_lis = html_ul.xpath('./li')herolists = []forhtml_liinhtml_lis:    herolist = {}    herolist['英雄名称'] = html_li.xpath('./a/text()')[0]    herolist['英雄详情页'] = html_li.xpath('./a/@href')[0]    herolist['英雄头像'] = html_li.xpath('./a/img/@src')[0]    herolists.append(herolist)

4.2.json数据解析

在请求的数据是json格式时,直接查看数据类型发现是str,如下:


我们可采用json.loads()和eval方法将其转化为列表的形式,该列表和上面html数据解析后的结果格式一样。

import jsonjs = resp.text# json.loads() 处理li = json.loads(js)# 直接 eval() 处理lis = eval(js)


json数据解析

5.数据保存

对于图片类数据,请求图片数据然后写入本地保存;对于文本数据表单,转化为dataframe类型存为excel文件(需要用到pandas库)。

5.1.存储图片类数据

我们在英雄列表中有英雄头像数据,这里演示将英雄头像数据存入本地。

# 遍历数据解析中 英雄列表forliinherolists:# 获取英雄头像网页地址# 如'//game.gtimg.cn/images/yxzj/img201606/heroimg/506/506.jpg'head_url = li['英雄头像']# 组合 https:url = f'https:{head_url}'# 获取该英雄名称,用于赋值给图片文件名称head_name = li['英雄名称']# 请求图片数据head_data = requests.get(url)# 设置存储图片的全路径head_path = f'保存地址'# 打开空文件写入图片数据open(head_path,'wb').write(head_data.content)


英雄头像图片数据存储

5.2.文本数据表单存储

importpandasaspd# 列表转化为dataframe类型df = pd.DataFrame(li)


数据预览

# 由于数据中存在一些网页符号,作为 菜鸟的我只会用replace简单替换df['des1'] = df['des1'].str.replace('<br>',',').str.replace('<p>','').str.replace('</p>','')df['des2'] = df['des2'].str.replace('<br>',',').str.replace('<p>','').str.replace('</p>','')# 存为表格,页签取名为“装备数据信息list”df.to_excel(r'地址',index=False,sheet_name='装备数据信息list')


道具文本数据表单

6.你也来玩一玩

标题中我们提到王者荣耀五周年,有102个英雄和326个皮肤。其实,在英雄列表中我们抓取的html数据中只有93个,如何获取全部的呢?大家可以参考json数据请求的方式去找一找,如何根据相关数据的特点(比如英雄头像地址里变动的其实是 英雄的id,英雄详情页也是)。

大家可以看看新英雄和新皮肤,如何爬取相关数据试试。

https://pvp.qq.com/coming/v2/

6.1.英雄新皮肤数

上线五年,一共93个英雄新出过皮肤,其中貂蝉、花木兰和孙悟空新增皮肤最多,高达5个!!


在93个英雄中,大部分只新增过1个皮肤~

6.2.新增皮肤上线时间

从上线月份来看,1月是英雄上线高峰,这个和1月大部分为春节月有关,毕竟这款产品春节也是最赚钱的。


从上线年份来看,2015年其实10月底产品才上线,所以整体新增皮肤不多,16及17年游戏高速增长期吧,团队产能并没有明显提高?所以在18年之后,团队大了,新增皮肤蹭的飞涨!


6.3.王者英雄产能

2015年10月28日王者首发时,有33个英雄,大家熟悉的亚瑟、项羽、安琪拉等都是第一批。截止到现在,5年时间内新增英雄69个。

从上线月份来看,2、8、11和1月份是新英雄出的最多的,为啥啊?


从上线年份来看,2015年上线2个月内上线7个新英雄,很快,毕竟存了很多量嘛。随后可以看到2016年新英雄产出是高峰,随后逐年降低的趋势,为啥?「毕竟英雄设计是非常非常费脑袋的啊!!」

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,294评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,780评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,001评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,593评论 1 289
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,687评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,679评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,667评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,426评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,872评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,180评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,346评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,019评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,658评论 3 323
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,268评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,495评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,275评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,207评论 2 352