科赛网项目集-出行产品过去23个月的销量情况分析

1、基本信息

(1) 目标

使用科赛网中携程提供的的比赛数据集,深入了解产品需求量与产品特性、历史销量的关系。挖掘出影响需求量的关键因素,为后续的销量预测做准备。

(2) 数据来源

科赛网上携程提供的数据,2014-01-01到2015-11-30日的销量情况和产品概况,包含区域、评分、使用时间等多个维度。

(3) 数据可行性

数据经过了脱敏处理,与产品的实际情况有一定的差距,但不影响分析。

(4) 数据介绍

数据中共包含4000个产品,地区细分为642个,时间为2014-01-01到2015-11-30,跨度为23个月,订单渠道3个。

2、数据清洗

首先对数据集product_info进行描述:

product_info描述1
product_info描述2

从min行看出,只有product_id、district_id2、district_id4和eval没有缺失值。

对于字符串格式的列,是否含有缺失值,则是看是否等于-1,通过程序,upgradedate缺失值比较多。

对于地区id系列railway、airport、citycenter、railway2、airport2、citycenter2和upgradedate这几列,缺失值太多,而且没用,所以删除这些列。

再对product_quantity数据集进行描述:

product_quantity描述分析

最有可能有缺失值的就是price和product_date,经过分析,只有price有缺失值。

(1) 缺失值处理

lat和lon,经纬度的填充采用众数填充。

lat、lon缺失值处理

等级eval等的缺失值处理,因为等级都是固定的范围,所以采用均值处理。

eval等级的缺失值处理

votes、maxstock这两个数值型变量,数值范围不确定,可能受极端值影响,所以采取中位数填充。

votes、maxstock缺失值处理

对于像startdate、cooperatedate等字符串,有缺失值,也有异常值‘1753-01-01’,所以把缺失值和异常值都等于‘2014-01-01’,因为本次数据的产品使用时间的取值范围为2014-01-01至2015-11-30。

startdate缺失值处理
cooperatedate缺失值处理

对于price的缺失值,仔细观察了数据,发现price的缺失值都是因为人们预定了,成交量却是0,这个时候的平均售价应该为0,所以,缺失值都转换为0。

price缺失值处理

(2)数据整理

将所有的评分相加,形成总分eval_T。

评分相加程序

把product_quantity的product_date转换为关于年月的,这样就可以直接统计一个月的数据。

转换程序

计算出产品从开售到合作的时间'cha'。

求日期时间间隔程序

3、数据分析

核心结论

(1) 地区

3%的城市占据了34.9%的销量

20502、22746、22338、20604等几个二级地区的细分城市占据销量前20的45%

(2) 产品

4000个产品根据评分及运营时间划分为4类

销量跟评分的相关性较大

(3) 时间

每年的8月和10月为产品使用的高峰期

同比增长率在70%-80%左右呈稳定趋势

(4) 渠道

渠道1的销售量最高

渠道2的销售量第二,转化率最低

逐步分析

地区id1的销量分布

在最大的地区id1中,销量最高的是10201,占总销量的97.75%,该产品主要的经营区域为10201这个区域。

销量前20的地区

销量前20的地区,其中20502这个地区就占了3个小城市,其次是22746、22338、20604这三个地区,各占了2个小城市。

前20个城市的总销量占据总销量的34.9%。

产品销量为0

销量为0,可能是未开张。或者是被退订单。

产品销量前20
产品聚类分类 


根据聚类运算,把产品大致分为4类。

这4类产品特性:

       0:评分低,运营时间短,共2638个产品

       1:评分高,运营时间短,共1349个产品

       2:评分低,运营时间长,共1个产品

       3:评分高,运营时间长,共12个产品

不同产品特性的销量

有销量图可以看出,3类型的产品的销售量最低,人们更喜欢现代点的产品。

2015年的同比增长率

同比增长率在夏季会偏高,冬季会下降。侧面反映了人们的生活水平越来越高,越来越会享受生活,旅游的人越来越多。

 不同时间的销售量及环比

销量在每年的8月份和10月份都迅速增长。8月是学生的暑假,正是全家旅游的时候,10月份有国庆7天小长假。

5月份有青年节,销量也有小幅度上涨。平常时间的销量趋于线性增长。

渠道转化率

渠道1的销量是最高的,转化率是最高的。

渠道2的销量销量第二,但转化率是最低的。需要进一步探讨转化率低的原因。

4、结论分析

地区、时间、产品特性对于销量有很大的影响,但这些影响是主观的,可以分析出哪些是销量多的,却没有办法改变,只能在平台上加大宣传力度。

对于订单这个影响因素,可以通过进一步的数据,查看为什么会转化率低,进而做出措施。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,423评论 6 491
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,147评论 2 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,019评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,443评论 1 283
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,535评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,798评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,941评论 3 407
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,704评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,152评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,494评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,629评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,295评论 4 329
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,901评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,742评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,978评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,333评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,499评论 2 348

推荐阅读更多精彩内容