一、 背景介绍
随着互联网的发展,人们越来越多地依靠网上购物,尤其是婴幼儿产品备受青睐。本次分析的主要目的是通过数据分析方法了解商品的消费情况,为商家接下来的业务发展提供销售建议和指导策略。
二、 数据来源
阿里天池:https://tianchi.aliyun.com/dataset/dataDetail?dataId=45
三、 提出问题
1) 商品的购买数量如何?哪种商品的购买数量最好?在哪个季度购买数量最好?
2) 哪个年龄段婴儿对应的购买量最多?
3) 婴儿的性别与购买数量有何关系?
四、 理解数据
婴儿信息表字段:
user_id(用户id)、birthday(出生日期)、gender(性别,0为男性、1为女性)
购买信息表字段:
user_id(用户id)、auction_id(购买行为编号)、cat_id(商品种类id)、cat1(商品属于哪个类别)、property(商品属性)、buy_mount(购买数量)、day(购买时间)
五、 数据清洗
a) 对数据集进行处理选择有分析意义的数据,隐藏auction_id、cat_id、property等无意义的字段;
b) 通过COUNTA函数检查表中并无缺失值需要填补;应用VLOOKUP函数将购买信息表中有出生日期及性别的用户筛选出来,作为后续待分析数据,剔除无用数据;
c) 再通过查找替换功能将cat1列中商品的种类名称用ABCDEF进行统一的重命名,利用Excel的分列和设置单元格格式功能,将日期格式进行转换,从而增强可读性也便于后续的分析与计算操作;
d) 根据商品的购买日期和婴儿的出生日期,我们可以利用Excel隐藏函数DATEDIF,计算出婴儿当前年龄,由于有些购买日期是在婴儿出生前购买,所以还需要通过IFERROR函数来处理一些异常值,如果为婴儿出生日期前购买则显示为-1;
e) 最终,将年龄按照婴儿的重点成长期进行划分,分组为未出生、0-1岁、1-3岁、3-7岁及7岁以上,再利用VLOOKUP函数将数据集中的年龄进行分组匹配。
六、 数据可视化
1) 各种商品购买数量如何?哪种商品购买数量最好?
通过数据透视表和透视图可知,C>A>B>E>F>D,且2014年度购买数量最好。
第四季度的购买数量明显高于其他季度。
2) 哪个年龄段婴儿对应的购买量最多?
由上图可知,0-1岁和1-3岁婴儿的购买量最多;
未出生婴儿对应的更倾向与F商品、0-1岁倾向于C商品、1-3岁倾向于E商品、3-7岁倾向于D商品、7岁以上倾向于D商品。
3) 婴儿的性别与购买数量有何关系?
男性婴儿倾向于选择C商品,而女性婴儿更倾向于选择A商品。
七、 分析结论
通过对数据运用多维度拆解方法,从产品指标出发,重点研究商品购买量、商品种类和时间的关系。
1) 从婴儿性别统计分析来看,男性婴儿数量远大于女性婴儿数量,后续可以针对男性婴儿的购买需求做出进一步的分析和了解;
2) 从不同性别对商品种类的影响看出,男性婴儿更倾向于选择C商品(C>A>B>E>F>D),而女性婴儿更倾向于选择A商品(A>B>C>F>E>D)。
按照年龄将数据分为三类:未出生、婴儿(0-2岁)、儿童(3-8岁)
通过年龄段分布情况可以看出婴儿的购买数量最多。
未出生的宝宝倾向于购买C商品,婴儿阶段的宝宝也倾向于购买C商品,而儿童阶段则倾向于购买A商品;
可以看出不同阶段的宝宝对商品的需求也不同,建议商家后续应定向对不同年龄段进行推广。