〇、作业要求
1)决策树
请根据前两题的提示,在 RStudio 中写出完成本次分析(用决策树模型来预测不同人群所给的满意分数,将受访用户划分为四个人群)的代码,并将运行结果可视化呈现,根据可视化结果得出你的分析结论。
请将你的分析结论汇报给业务同事,汇报内容包括:
1.决策树模型运行代码
2.模型结果可视化视图
3.基于模型结果产生的业务洞见(可以参考课程中的表格+文字)
2)线性回归
业务同事想了解一下城区和年龄对用户满意分数的影响,希望数据分析师可以用跑一个线性回归模型,并根据模型运行结果回答业务同事的问题。
问题一:本次线性回归结果(公式)为?
问题二:此时的决定系数R^2和调整R^2的取值为?
问题三:某受访用户A为西城区用户,年龄为28岁。请你通过线性模型预测用户A给的满意分数为多少?
问题四:某受访用户A为朝阳区用户,年龄为40岁。请你通过线性模型预测用户A给的满意分数为多少?
问题五:根据模型运行结果,依照四个城区对用户满意分数的影响程度做一个由强正向到强负向的排序。
一、决策树
1)决策树模型运行代码
2)模型结果可视化视图
3)基于模型结果产生的业务洞见
1.人群满意度分数关键特征:用户年龄(满意度分数与用户年龄呈正相关)
2.小于24岁与超过29岁的用户群体占比相对较大,分别占比32%与38%,但分数却呈现出最低值2分与最高值8.3分,两级分化严重,针对此两类用户可分别制定不同运营策略
二、线性回归
1)本次线性回归结果
分数 = -7.59 - 0.08 * δ(东城区) + 1.43 * δ(海淀区 )+ 0.38 * δ(西城区) + 0.46 * 年龄
2)决定系数
R^2 = 0.8744
调整R^2 = 0.8691
3)预测用户A给的满意分数1
某受访用户A为西城区用户,年龄为28岁。请你通过线性模型预测用户A给的满意分数为多少?
分数 = -7.59 + 0.38 +0.46 * 28 = 5.67(5、6分之间)
4)用户A给的满意分数2
某受访用户A为朝阳区用户,年龄为40岁。请你通过线性模型预测用户A给的满意分数为多少?
分数 = -7.59 +0.46 * 40 = 10.81(因调查最高分为10分,因此预测分数为10分)
5)由强正向到强负向的排序
通过模型运行结果我们可以看出自变量的系数如表格所示,由强正向到强负向的排序分别为海淀、西城、朝阳、东城,其中东城区对因变量有负向影响。
6)代码及结果提交
运行结果: