携程流失预测项目总结

项目背景:携程作为中国领先的综合性旅行服务公司,每天向超过2.5亿会员提供全方位的旅行服务,在这海量的网站访问量中,我们可分析用户的行为数据来挖掘潜在的信息资源。其中,客户流失率是考量业务成绩的一个非常关键的指标。此次竞赛的目的是为了深入了解用户画像及行为偏好,找到最优算法,挖掘出影响用户流失的关键因素,从而更好地完善产品设计、提升用户体验;

项目介绍:分析影响客户流失的关键因素,并通过算法预测客户访问的转化结果。

项目流程:

pycharm导入原始训练集和测试集数据,然后进行缺失值的填充(缺失值一共分为3部分:

缺失值占比小于20%:(

commentnums  当前酒店点评数,

novoters  当前酒店评分人数,

cancelrate  当前酒店历史取消率,

price_sensitive  价格敏感指数,

hoteluv  当前酒店历史uv,

hotelcr  当前酒店历史cr,

cr_pre  24小时历史浏览次数最多酒店历史cr,

lowestprice_pre  24小时内已访问次数最多酒店可订最低价,

lowestprice_pre2 24小时内已访问酒店可订最低价均值,

customereval_pre2  24小时历史浏览酒店客户评分均值,

commentnums_pre  24小时历史浏览次数最多酒店点评数,

commentnums_pre2  24小时历史浏览酒店点评数均值,

cancelrate_pre  24小时内已访问次数最多酒店历史取消率,

novoters_pre2  24小时历史浏览酒店评分人数均值,

novoters_pre  24小时历史浏览次数最多酒店评分人数,

deltaprice_pre2_t1  24小时内已访问酒店价格与对手价差均值,

lowestprice_pre  24小时内已访问次数最多酒店可订最低价,

uv_pre  24小时历史浏览次数最多酒店历史uv,

uv_pre2  24小时历史浏览酒店历史uv均值,

businessrate_pre2  24小时内已访问酒店商务属性指数均值,

cityuvs  昨日访问当前城市同入住日期的app uv数,

cityorders  昨日提交当前城市同入住日期的app订单数,

visitnum_oneyear  年访问次数;),


缺失值占比20%-50%:(

ordercanncelednum 用户一年内取消订单数,

landhalfhours 24小时内登陆时长,

starprefer 星级偏好,

consuming_capacity 消费能力指数,

historyvisit_avghotelnum 近3个月用户历史日均访问酒店数,

delta_price1 用户偏好价格-24小时浏览最多酒店价格,

businessrate_pre 24小时历史浏览次数最多酒店商务属性指数,

ordernum_oneyear 用户年订单数,

avgprice 平均价格,

delta_price2 用户偏好价格-24小时浏览酒店平均价格,

customer_value_profit 客户价值_近1年,

ctrip_profits 客户价值,

Lasthtlordergap 一年内距离上次下单时长,

Lastpvgap 一年内距上次访问时长,

cr 用户转化率),


缺失值大于50%:(

historyvisit_7ordernum 近7天用户历史订单数,

historyvisit_totalordernum 近1年用户历史订单数,

ordercanceledprecent 用户一年内取消订单率,

historyvisit_visit_detailpagenum 7天内访问酒店详情页数))


以上缺失值,少于20%的特征用均值填充,20%-50%的特征用-999填充,大于50%的特征用0填充;

根据统计分析,decisionhabit_user这个特征大于40的数据占的比例很少,所以把大于40的值改成1,小于40的改成0;

根据用户和酒店进行分组(这里需要用到聚类KMeans),

用户组=[historyvisit_7ordernum 近7天用户历史订单数,

historyvisit_totalordernum 近1年用户历史订单数,

ordercanceledprecent 用户一年内取消订单率,

historyvisit_visit_detailpagenum 7天内访问酒店详情页数,

historyvisit_avghotelnum 近3个月用户历史日均访问酒店数,

lowestprice_pre  24小时内已访问次数最多酒店可订最低价,]

酒店组=[commentnums 当前酒店点评数,

novoters  当前酒店评分人数,

cancelrate  当前酒店历史取消率,

hoteluv  当前酒店历史uv,

hotelcr  当前酒店历史cr,

Lowestprice 当前酒店可定最低价]

另外,这里有一部分连续特征需要处理:starprefer,avgprice,consuming_capacity 定义三个函数,starprefer中值等于-999的返回为0,小于50的值返回为1,50-80的值返回为2,其余返回为3;avgprice中值等于-999的返回为0,小于300的值返回为1,小于1000的值返回为2,其余返回为3;consuming_capacity中值等于-999的返回为0,小于50的值返回为1,其余返回为2;

然后根据刚才的用户组和酒店组通过KMeans生成两个特征:userclass,hotelclass,紧接着对数据进行one-hot编码,这里用到get_dummies函数。

构造新的时间特征,是否为工作日/星期几/预定时间与入住时间间隔,因为工作日和周末对客户预定酒店有很大影响,所以要另外添加特征来分析。

如果同一个用户连续几天预定了同一家酒店,第一天的数据在训练集上,那么之后几天的数据则会过拟合,所以要把同一个用户的信息放到同一个数据集中,根据这个思路构造一个新的特征:用户标签,需要用到hash函数,

这个用户标签= ordercanncelednum 用户一年内取消订单数 +

historyvisit_avghotelnum 近3个月用户历史日均访问酒店数 +

ordernum_oneyear 用户年订单数 + customer_value_profit 客户价值_近1年 + ctrip_profits 客户价值 + cr 用户转化率 +

visitnum_oneyear  年访问次数;

Train,Test数据分割用来训练模型,首先把训练集数据按照用户标签特征进行排序,之后按照7比3的比例分成Train数据和Test数据;

建模需要用到的数据为Train数据,Test数据和Pred数据,这里的Pred数据是之前处理好的测试集数据;

构建一个调参函数,这里要用到网络搜索GridsearchCV,调整树的最大深度,每个叶子节点个数,步长,每棵树随机采样列数占比以及样本随机采样的比例来找出最优参数,我用的模型是XGBoost,找到最优参数后,紧接着用找到的最优参数来训练XGB模型,然后用模型进行预测,这里使用了precision_recall_curve函数输出所有精确度和召回率,在精确度大于0.97的数据中找出最大召回率,然后保存预测结果。到这里这个案例差不多已经完成了,还剩下最后的上线。

我做这个案例的大体思路是如何找出有效特征并且构建新的有效特征,对于一个模型来说,通过调参来提升模型毕竟有限,最重要的还是特征工程。这里的特征大致分为3类,订单相关指标,酒店相关指标和用户相关指标,列出每个指标中重要的特征着重分析;

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 225,132评论 6 523
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 96,457评论 3 404
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 172,411评论 0 368
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 61,147评论 1 301
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 70,145评论 6 400
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 53,611评论 1 315
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 41,962评论 3 429
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 40,948评论 0 279
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 47,479评论 1 324
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 39,514评论 3 347
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 41,640评论 1 355
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 37,228评论 5 351
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 42,973评论 3 340
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 33,402评论 0 25
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 34,551评论 1 277
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 50,210评论 3 381
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 46,714评论 2 366

推荐阅读更多精彩内容