用Python分析淘宝2000款避孕套,得出这些有趣的结论

数据分析之前我们需要清楚的知道自己想要分析什么东西,也就是先搞清楚我们的目标。在公司可能是公司财报、用户增量变化、产品受欢迎程度、一些报表等等。

那我们今天的目标有哪些呢?我们来看看:

分析避孕套标题高频关键字

分析避孕套标题高频关键字 与 商品数量关系

分析避孕套标题高频关键字 与 平均销量关系

分析避孕套标题高频关键字 与 平均售价关系

分析避孕套商品价格区间分布关系

分析避孕套商品销量区间分布关系

分析避孕套商品价格区间 与 平均销量关系

分析避孕套商家数量全国分布关系

分析避孕套商家全国平均销量关系

注意:以上数据分析全部基于上次爬取的2500款淘宝商品(默认排序),并不代表淘宝所有避孕套商品!

二、分析实现

有了明确的目标之后,我们就要开始技术选型。

首先数据处理的库这个很好确定,基本就是numpypandas这两个必备的库,所以大家首先确保已经安装了这两个库。

然后数据可视化库呢?这么多可视化库该怎么选?如果你不知道怎么选,那猪哥给你推荐:pyecharts这个由中国人开发的可视化库,想要什么类型的图在下面文档里面找就行。

中文文档:https://pyecharts.org/#/zh-cn/intro

源码地址:https://github.com/pyecharts/pyecharts

最后技术选型完毕,我们就可以开始正式的敲代码分析了。(分析的标题将和上面的分析目标一一对应)

0.数据清洗

在我们数据分析之前,我们需要对数据进行清洗。因为从淘宝爬取下来的数据并不是标准的数据,比如:商品销量,爬取下来的数据是:2.5万+人付款,我们需要将它转为:25000(整型),这样才方面后面的处理!

我们先来看看从淘宝爬取的原始数据,看看那些数据需要清洗

根据使用库的经验猪哥认为有两列数据需要清洗:1、销量转成整型 2、地区转成只包含省份,具体如何清洗我们直接看代码吧!

大家可以看到最后猪哥又从新生成了一个excel文件,目的就是不去污染原始数据,因为原始数据非常重要,所以我们在以后的数据处理中要尽量保存好原始数据,多备份几个都不多余!

1.分析避孕套标题高频关键字

数据清洗完毕之后,我们就可以开始分析了。

分析标题高频关键字这都是老生常谈的一个流程,也就是使用jieba分词,然后统计词频,最后生成一个词云图,我相信经常看猪哥公众号的同学看都看腻了吧,这种小功能闭着眼睛都会了。

十几行代码就搞定了,我们来看看效果图吧

分析结论:

从整体看商家取名偏爱情趣二字

从材质看尿酸的最多

从功能看颗粒、螺纹的较多

ps:别问猪哥最中意哪个词,问就是延时

2.分析避孕套标题高频关键字 与 商品数量关系

上面我们只看到大概哪些功能受欢迎,如果需要看具体的数据怎么办呢?

我们就来统计一下包含这些高频关键词的商品数据数量吧,代码讲解在图片下方,下同!

我们取最高频的20个关键字,然后遍历所有数据的标题中是否包含其中关键字,如果包含则该关键字的value就+1。来看看生成的柱状图效果吧!

分析结论:

包含情趣二字的商品有1150款,占到总数(2500款+)的46%。

前三甲是:情趣、尿酸、颗粒

ps:猪哥有个疑问想请教各位老司机:这个免洗是咋玩的?

3.分析避孕套标题高频关键字 与 平均销量关系

这个分析有意思了,就相当于用户更喜欢哪种功能或者材质的套套。

高频关键字与平均销量分析数据的实现方法是,同样遍历所有数据的标题,如果包含某个关键字,则把该项数据的销量放在关键字的value中(一个list),统计完后再对每个关键字的value进行求平均值,最后再根据平均销量排序。来看看效果吧!

分析结论:

螺纹功能平均销量最高,大家的最爱

功能平均销量前三分别是:螺纹、颗粒、狼牙

小号竟然上榜,哈哈

ps:有很多同学问:为什么不是超薄?超薄自己是爽了,可女朋友呢?

4.分析避孕套标题高频关键字 与 平均售价关系

分析完大家喜欢的功能,再来分析下这些功能的价格如何?哪些功能的避孕套比较贵呢?

高频关键字 与 平均售价关系分析原理与上面是相似的,使用的同一个方法,只不过是将原来的销量换成价格,来看看效果图吧!

分析结论:

可以看到前排几个基本都是关于材质的

凝胶、透明质、免洗这三项均价最贵,超过100大洋

ps:类似凝胶、透明质、免洗的哪位老司机用过,和一般的有啥区别?

5.分析避孕套商品价格区间分布关系

商品的标题和功能差不多分析完了,我们来分析下价格吧!

猪哥人为的对价格进行了划分,一共分为:’0-20’, ‘21-40’, ‘41-60’, ‘61-80’, ‘81-100’, ‘101-120’, ‘121-150’, ‘151-200’, ‘200以上’这9个区间,然后对数据切割、统计、排序,最后分别生成柱状图和饼图。

分析结论:

价格区间在21-40的商品最多为778款,大约占比31%。

价格在一百以内与超过一百的商品比大概为7:1

ps:没想到还有这么多超过100块的,我想问下200块价格的套套是啥感觉?

6.分析避孕套商品销量区间分布关系

分析完价格当然是分析销量区间了

销量区间分布分析实现原理:认为为销量分区,大概分为:’一千以内’, ‘一千到五千’, ‘五千到一万’, ‘一万到五万’, ‘五万到十万’, ‘十万以上’,这六个区间,然后同上方法进行统计、排序最后可视化。

分析结论:

销量在1000以内的最多,大概占比90%

销量过万的一共也才10款,说明爆款真的很少

有一款套套销量竟然超过10万

ps:想知道那款超过10万销量的避孕套商品信息吗?关注猪哥微信公众号「裸睡的猪」回复:爆款套套,即可查看!

7.分析避孕套商品价格区间 与 平均销量关系

假如你是一个避孕套卖家,新推出一款避孕套,你想知道价格定为多少销量才会比较高呢?

这时候我们就可以通过分析价格与商品的销量关系,用实际的数据来定价,这也正是数据分析的价值之一。

商品价格区间 与 平均销量关系分析实现原理是:使用pandas自动分区将价格划分为12个分区,然后对销量数据分组、求平均值,来看看可视化之后的效果。

分析结论:

定价在31.9-39这个区间平均销量最高,为893

定价在10元以内的销量竟然高居第二

ps:谁用过10以内一盒的套套,出来走走

8.分析避孕套商家数量全国分布关系

标题、价格、销量都分析过了,最后我们还分析下商家位置的数据。

分析的目标是统计全国各省避孕套商家数量,然后做成热力图和柱状图。

统计商家数量还是比较简单,因为我们之前在数据清洗的时候已经只保留了省份数据,所以直接value_counts()就可以得到想要的数据,看看效果如何!

分析结论:

避孕套商家前三甲:广东、上海、浙江

ps:贵州四周都有卖套套的,为何就它没有?难道和地理有关?

9.分析避孕套商家全国平均销量关系

分析完商家数后,我们来看看各省的平均销量吧。

商家全国平均销量关系分析实现原理:我们新创建一个透视表并对销量求平均值,然后再排序,最后生成热力图和柱状图。

分析结论:

出乎意料的是山西39个商家平均销量竟然是第一为1535。

ps:为何山西平均销量是第一?原因是啥真想不通

三、总结

通过上面的数据分析,我们得到了一些有趣的结论:

用户偏爱螺纹、颗粒、狼牙等功能

凝胶、透明质、免洗这三项均价最贵,超过100大洋

价格区间在21-40的商品最多为778款,大约占比31%

销量在1000以内的最多,大概占比90%

定价在31.9-39这个区间平均销量最高,为893

避孕套商家数量前三甲:广东、上海、浙江

山西省平均销量最高为山西

通过上述分析结果,如果猪哥作为一个避孕套商家,想要推出一款产品,设置标题带螺纹、颗粒、狼牙,价格设置在31.9-39元,这样可能会更畅销一些。

数据分析作为一把利刃,能让你看见别人看不见的事物,如果使用得当完全可以作为你创业的一个重要支点!

最后猪哥再送你一句忠告:想学数据分析,一定要学好pandas!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,657评论 6 505
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,889评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,057评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,509评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,562评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,443评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,251评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,129评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,561评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,779评论 3 335
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,902评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,621评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,220评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,838评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,971评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,025评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,843评论 2 354

推荐阅读更多精彩内容