数据建模思路(EDA&FE&Modeling)

一、探索性数据分析

对部分数据进行分析,另外获取每个类别特征的点击分布情况判断特征效果,看分布可以有一个很好的初步验证作用。

一)、理解数据:

1. 数据概况:变量描述表(名称、五数统计、outliner、缺失值)

2. 数据分布:核心变量分布图(分类变量取值情况,是否正太分布,是否多峰值,出现异常可深挖)

二)、理解业务:

1. 啤酒销量的影响因素:自身因素(品牌、价格、库存)、外部因素(人口分布、经济水平)

三)、数据清洗:

1. 修改列名

2. 缺失值、离群值、重复值

3. 数据类型处理

四)、数据分析:

1. 关联性分析:相关矩阵

2. 组合分析:各品牌的销量(热度品牌)、时间与销量关系(购买高峰期)、各产品的销量(热度产品)、各品牌SKU数、品牌总销量与总销售额、客单价、消费趋势等(PS. 这部分要根据数据概况与关系矩阵进行调整)


二、数据预处理(基本思路扩大可用的特征,尽可能添加有用信息、进行更细粒度的刻画)

1. 时间数据切分(starttime)

2. 对region、City进行,DictVectorizer 从字典类型加载特征

https://sklearn.apachecn.org/docs/master/39.html


三、特征工程

特征构造

1. 基础特征:原始特征(已经给的那些特征)+外部特征(温度)

2. 特征编码:

one-hot encode:讲类别变量转换成稀疏矩阵,但是在决策树中慎用,且要注意虚拟变量陷阱即变量间不独立,存在多重共线性,解决办法是删除一个虚拟变量或删除one-hot稀疏矩阵中的一列。(虚拟变量陷阱:https://www.algosome.com/articles/dummy-variable-trap-regression.html

target encode:由于啤酒销量呈现一定的季节特征,将月度数据进行目标编码,这样可以保证月度数据包含销量的季节特点。其出发点是用概率P(y=yi|x=xi)代替属性值x, 其中x表示属性值,y该属性下的预测值的均值。

3. 统计特征(count、ratio、mean、nunique等)

可构造销量的相比于上月的增长率。

产品增长率、流失率、回购率

4. 聚合统计特征

特征选择:选取恰当的特征选择方法(卡方检验、特征重要性等)选取重要的特征


四、模型选择:

1. 问题描述:根据2016年1月到2019年11月黑龙江、吉林两省的历史销售数据,产品主数据、商务计划数据和外部数据,预测2020年1月两省各产品的销量。

2. 问题定义:产品销量为连续型变量,所以可以将其抽象为回归预测问题。

3. 模型选择:

梯度提升决策树(GBDT)

DT-Decision Tree决策树,GB是Gradient Boosting,是一种学习策略,GBDT的含义就是用Gradient Boosting的策略训练出来的DT模型。模型的结果是一组回归分类树组合(CART Tree Ensemble): T_{1} ...T_{k} 。其中 T_{j}  学习的是之前 j - 1棵树预测结果的残差,这种思想就像准备考试前的复习,先做一遍习题册,然后把做错的题目挑出来,在做一次,然后把做错的题目挑出来在做一次,经过反复多轮训练,取得最好的成绩。

而模型最后的输出,是一个样本在各个树中输出的结果的和:

回归决策树算法(Decision Tree):决策树可以认为是 if-then 规则的集合,易于理解,可解释性强,预测速度快。同时,决策树算法相比于其他的算法需要更少的特征工程,比如可以不用做特征标准化,可以很好的处理字段缺失的数据,也可以不用关心特征间是否相互依赖等。决策树能够自动组合多个特征。

不过,单独使用决策树算法时,有容易过拟合缺点。所以通过一些方法,抑制决策树的复杂性,降低单颗决策树的拟合能力,比如限制树的最大深度、限制叶子节点的最少样本数量、限制节点分裂时的最少样本数量、吸收 bagging 的思想对训练样本采样(subsample),在学习单颗决策树时只使用一部分训练样本、借鉴随机森林的思路在学习单颗决策树时只采样一部分特征、在目标函数中添加正则项惩罚复杂的树结构等。

同时,再通过梯度提升的方法集成多个决策树,第一棵树建立的时候使用的是原始数据,而后每一棵树建立使用的是前n-1次的残差来拟合弱学习器。最终能够很好的解决过拟合的问题。

由此可见,梯度提升方法和决策树学习算法可以互相取长补短,是一对完美的搭档。




References:

1. 数据分析实战项目整理(更新ing) - 一两赘肉无的文章 - 知乎

https://zhuanlan.zhihu.com/p/136975705

2. 异常值处理:https://mp.weixin.qq.com/s/x3CcddEkyKrI-qhBU_pdgw

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,509评论 6 504
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,806评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,875评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,441评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,488评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,365评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,190评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,062评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,500评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,706评论 3 335
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,834评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,559评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,167评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,779评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,912评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,958评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,779评论 2 354