项目介绍:
现在我们手上有一份来自美国的电商数据,下载自Kaggle,我们需要对其中的用户进行分层,对其使用RFM方法划分等级,采取不同用户采取不同运营策略
首先我们需要导入需要的包
之后我们需要读取数据
之后我们需要进行数据清洗,首先检查数据中是否有空值,可以发现·有空值的只有邮政编码这一列,对于我们进行的操作属于无关变量,可以不去处理
接着我们去检查重复值,发现数据里并没有重复值
之后我们就可以进行RFM用户分层了,首先我们先定义先定义RFM中的R列,其内容代表最近一次消费时间,我们应当使用一个日期减去每一个订单的日期的天数作为其R值的判别标准,将最近一次的消费日期命名为end_time,减去每一个订单日期,由于一个用户有多个订单,所以我们采用最近一次的订单作为R值,代码如下所示:
F值为消费品频率,其值为去重后的订单ID数,M则为每个用户各自的所有销售额的聚合,代码如下所示:
之后应该以R,F,M的顺序从左到右将其合并为一张表格,代码如下所示:
不要忘了细节处理,将F,M的名字改过来
接着,我们将RFM中的R值绘制成直方图,观察其数据结构,发现绝大部分数据都靠左,这种情况下选择中位数作为判别点的话会不准确,所以这里选择了均值作为R_score的判别点
我们将小于判别点的值定为1,并将其命名为R_score
接下来我们来看F值的直方图,由于其数据大体呈正态分布,我们就选择中位数作为本次的判别点
我们将大于判别点的值定为1,并将其命名为F_score
接下来我们来看M值的直方图,其情况相似于R值,我们取均值作为判别点
我们将大于判别点的值定为1,并将其命名为M_score
可以得到别表格如下所示
于是我们创造Total_score列来作为RFM的值的判别标准
RFM的分类标准如下(高为1,低为0)
我们在Python中制定好标准,再通过Total_score映射到RFM表格中,取名为用户等级,其代码和表格如下所示
我们将表格存为excel文件,
这样我们就得到了一份RFM用户分层效果表格,以便对不同的用户采取不同价值的用户的运营方式
本数据为Kaggle下载,如需数据请私信我。