爆款游戏制作手册
数据集:Video_Game_Sales
软件平台:Python 3.6.4 + Jupypter Notebook 5.4.0
结论
历史上,在Wii平台上制作面对欧洲、北美客群的Action或Sports游戏最容易产生爆款、获取超高收益:
Wii和DS毫无疑问是爆款游戏平台,分别以0.46%和0.75%的游戏数量贡献了超22%和32%的销售额;两个平台各有所长,Wii平台以Sports, Platform, Misc类型的高销游戏为主、DS平台以Platform,Misc,Simulation的高销游戏为主;所有这六类游戏的主要销售区域都是在欧洲和北美。
在X360平台上发布面向北美客户的Shooter类游戏,或在DS上发布面向北美客户的Platform游戏的公司则可以获得最稳健的收益:
Shooter和Platform游戏类型有着较高的销售中位数和平均销售;且其较大四分位数(Q3)也明显高于其他游戏类型;X360和DS则分别在这两类游戏类型上有着高销历史。
一、数据导入和清洗
1.查看数据集的基本情况
1.1 数据结构:16719行,16列;
Critic_Score,Critic_Count,User_Score,User_Count,Developer,Rating缺失值都比较多;
User_Score 是object型,需要处理。
User_Score有2425条都是tbd(to be decided?)
照惯例用.head()查看下数据:
2.空值处理
2.1 统计下null值,发现Critic_Score,Critic_Count,User_Score,User_Count,Developer,Rating缺失值比较多,但是Sales数据是完整的,所以我打算保留这些含空值的数据;Publisher和Name的空值数量很少,且对于具体分析没有影响,不做处理。
2.2 异常值 I:16年之后的销售数据和“Year_of_Release”中的空值
16年后的数据只有4条,而Year_of_Release中的空值只有269条且并没有哪个Platform或Genre或Publisher有特别高的frequency,所以稍后会把Year_of_Release中的空值直接删除
2.3 异常值 II:User_Score中的"tbd"
“tbd”(to be decided?)这个异常值有2425条,在目前没有明确的处理方法(但是通过第二章节的分析,会发现这个“tbd”指主要集中在DS和Wii这两个平台上,占其平台User_Score数量的比例均超30%;但是如果有70%的数据量,还是有可能使用User_Score这个数据进行分析的)。
2.4 皮尔森相关系数查看
看看各因素间有没有明显的相关关系/相互影响:各地区销售额间有比较明显的相关关系(日本例外),此外无明显特征:
二、按平台分析:
1.查看历史销售额最高的平台是哪些:
PS2, X360, PS3, Wii,DS,PS累计销量明显高于其余平台
2. 平台分析-数据删除&合并:
2.1 按照(一)中的分析,将2016年之后的数据删除
2.2 因为Platform数量太多了,为了方便查找规律,先把历史上销量最高的六大平台之外的平台合并成“others”,并新建“Platform_copy”作为数据备份:
2.3 查看各平台Null数据和"tbd"这个异常值,发现PS平台各项的空值占比都很高,DS平台的User_Score数据的空值+“tbd”值也超75%。这两个平台的相关数据在使用时要注意代表性不足的可能性:
2.3 按平台的销售数据分析
制作销量饼图、制作游戏数量柱状图;未发现游戏数量和销售额间的明显关系:
3. 按时间分析销售数据
3.1 这六个主要游戏平台都有自己的生命周期,均在10-13年之间。2006-2011年,各主要平台的生命周期重叠,游戏销售额迎来了一个高峰(或者应该反过来说:06-11年间消费者对主机的青睐给主机厂商带来了一个销售高峰)。
3.2 需要注意到从2011年开始,”others“的销售占比显著提高,判断是有新兴平台产生,可能需要最后单独做一个”近年流行平台+爆款游戏“章节
三、按游戏类型分析
1.从历史销售数据上来看,Action类销售成绩最好,Sports,Shooter其次,Role-Playing,Platform,Misc,Racing处于第三梯队,其余类目占比较小。
2.加入时间维度
Action、Role-Playing和Sports的占比高且2010年以来的流行程度在增加:
3.加入区域维度:
Action, Shooter, Sports是欧洲和北美最流行的游戏类型,而日本客群则对Role-Playing情有独钟、其流行程度明显高于其余所有类型:
四、销售额分析分析
1.1用小提琴图查看各平台销售额的分布,发现极端值多:3/4的游戏的销售额都是集中在约2百万以下
1.2 进一步查看销售额低于2百万的游戏数据分布:3/4的游戏销售额在50万以下。因为我们关注的是爆款游戏,所以这些低销量产品可以暂且放过。
1.3 查看不同平台每个平均每个游戏的销售额以及不同类型游戏平均每个游戏的销售额:
X360平台上平均每个游戏的销售额最高;Platform和Shooter类型游戏的平均销售额显著高于其他类型游戏:
2. 查看爆款游戏(销售额高于1000万)的总销售额以及这些游戏数量上占该平台总游戏数的比例:
DS和Wii是爆款游戏平台,分别用0.46%和0.75%的游戏数量贡献了超22%和32%的销售额。
3.用散点图查看不同平台、不同游戏类型的销售分布:发现各平台的爆款游戏类型并不相同
Wii平台:Sports, Platform, Misc类型的高销游戏多
DS平台:Platform,Misc,Simulation
X360:Shooter,Misc
PS2,PS3: Shooter,Action
4.制作箱型图,查看销售额低于5m的不同类型游戏的销售额分布特征:
Shooter和Platform的分布特征和它们平均每个游戏销售额最高的特征吻合。