前段时间我们抓取了京东商城上面的文胸数据,共计80万条,这份数据已经躺了好久了,今天我们就来进行一次简单地分析。
- 最受女性喜爱的颜色分类。
其中,肤色和黑色遥遥领先,我们的数据总量是80万,这两种颜色数量已经超过了20万,占比超过1/4,因为数据里面的颜色分类难免包括一些类肤色和类黑色的数据,但是写法却千奇百怪,因此我并没有把这一类归属于肤色和黑色,所以,如果用更长的时间来进行数据的清洗的话,这两种颜色的数量会更多。因此,从概率上来看的话,可能每一个女生都会有至少一件肤色或者黑色的文胸吧。
- 客户端占比
Android客户端的占比超过百分之五十,其次是iphone,这样的结果算是预料之中。事实上,来自微信购物的人数也不在少数,毕竟腾讯是京东的头号大股东,看来也是没少下功夫。
- 用户等级分布
从用户等级分布来看,铜牌会员占比最高,其次是银牌会员,之前听说过销售方面的二八原则,即百分之八十的用户贡献量总和其实只有约百分之二十,而百分之二十的用户贡献总量占比约百分之八十,因此你的等级越高,你会发现一个有趣的地方是,电商平台对你的信息推送内容更加的精准,时间点也卡的越准确,因为他们可能已经把你的消费习惯研究了若干遍了。
- 罩杯大小占比
这方面是我们今天研究的重点内容,从这个维度上来看,B罩杯的人数几乎是达到了50%,虽然我们这个样本量依然还算不上庞大,但是从B罩杯的绝对优势上来看,还是可以得出大致的结论的。
当然你可能会问,B罩杯到底是一个什么样的尺寸,这个问题有女朋友的你就可以选择咨询她了,如果没有的话,也没有关系,我这里已经帮你准备好了对应的图片。
- 具体尺寸占比
在具体尺寸方面,75B遥遥领先,事实上,我们可以根据这个数据来大体上推知女性的基本外轮廓状况。
具体尺寸占比是这一整个报告中最为费时费力的一张图,因为文胸的尺寸分为大陆和国际两种尺寸,再加上,商家对于尺寸的标注也并不规范,因此,需要额外花费不少时间。
- 时间分布
从时间维度上来看,从早上一直到上午十点,一路飙升,并于十点达到一天中的最高峰,一个可能的猜想是,无论是对于上班族还是庞大的学生群体,十点钟都是一个比较特殊的时间点,因为经过一段时间的工作或者学习,总会需要放松一下的,这时候拿出手机偷个懒,当然了顺便等着下班,也是美滋滋。晚上的21点是另一个高峰点,整体来看,从九点至二十二点,数据总体上比较平稳。
- 评论词云
对于评论这一块,图片上已经比较清晰了,需要指出的是,我是直接使用jieba切的词,直接使用词云工具进行绘图,所以效果并不特别好,有不少重复的关键词,一个不错的做法是将我们切好的词用pandas进行词频统计,以字典的形式赋予词云工具,其效果将会好很多。
另外我这里还有另一份淘宝的数据,数据量是300万,如果将这两份的数据进行合并的话,其效果会好很多,这个就下一次吧。
由于时间的原因,数据做的非常的粗糙。如果你想自己尝试的话,可以直接找我要数据。