登录注册写文章

回归分析-Diamond

回归分析-Diamond

实例

在jupyter中实现

导入所需要的python库

导入数据

查看是否有缺失值

绘制price列的图表

发现没有离散值

绘制carat列的图表

发现有离散值！绘制carat列的图表，发现carat最大值虽然为5克拉但是非常少，但是超过2克拉的值非常少，所以保留最大值2克拉以内的数据

去除离散值

去除离散值后绘图

绘制cut_ord列的图表，数字越大等级越高发现数据中切工等级多分布在中高级

绘制净度等级clarity_ord的图表数字越大等级越高发现数据中净度等级为8个等级多分布在低中级

建立新的索引

发现三个变量和price列都不呈线性分布

使用price列的log对数做散点图

发现carat列和log_price列是呈线性分布的，而且是正分布

删除price列

删除cut_ord列和clarity_ord列

创建虚拟变量

把虚拟变量提取出来放入cols中

创建要做回归分析的data_preprocessed数据框

以上都是进行数据处理的过程，接下来才要进行回归分析。

把log_price列的数据提取出来，然后删除log_price列

表转化为数据

分割训练集和测试集

创建回归

创建训练集的散点图

y_train数据里是原有price训练集的log数值而y_hat是price的预测值./ 从散点图可以看出price的log值（y_train)和price的预测值（y_hat)无差异，模型经过了第一次检验

所有变量的权重如果为正数表示价格（price）只会随着该变量而增加；若为负数表示价格（price）会因为该变量而下降

创建测试集的散点图

原始价格（log_price)测试集（y_test)和预测价格测试集（y_hat_test)同样是呈线性分布

把预测价格放入df_pf数据框中这个价格是通过x_test测试集预测出的

测试集含有20%的数据，y_test是原有的价格

把两组数据放在一个数据框中

残差检验

差异百分比

描述统计中显示差异百分比最大值为292.55 较大

使用display函数展示差异百分比后300行（tail(300))的数据发现差异百分比超过100%也就300行，而测试集数据共有9900行，300/9900=3%，占数据的3%

绘制差异百分比图表

由差异百分比图表的呈现可知。差异百分比多集中在100%之内，多分布在0-50之间，占总数据的90%以上，所以该模型还不错，可以用于数据预测。

Over

Created By Tao

最后编辑于：2024.11.12 09:21:25

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

禁止转载，如需转载请通过简信或评论联系作者。

推荐阅读更多精彩内容

数据分析之回归分析
回归，最初是遗传学中的一个名词，是由生物学家兼统计学家高尔顿首先提出来的。他在研究人类的身高时，发现高个子回归于人...
黄成甲阅读 46,194评论 0赞 61
回归分析-一般线性回归和广义线性回归+分类数据数据挖掘分析
一般线性回归---完整过程 ##线性回归包括几个方面：数据观察，初步拟合，交互作用，多重共线性，回归诊断，拟合中出...
我最有才阅读 4,420评论 0赞 3
SPSS多元线性回归分析流程
线性回归分析流程图如下：一、基本关系查看线性回归分析是用于研究定量数据之间的影响关系的，通常先有相关关系，才会...
spssau阅读 3,107评论 0赞 1
回归分析详细解读
在上一篇（相关分析一篇概全）文章中，我们总结了关于相关分析的内容。编写的过程让我想起曾经回答过的一个问题：“为什么...
spssau阅读 18,239评论 0赞 1
线性回归分析思路总结！简单易懂又全面！
线性回归分析是一种研究影响关系的方法，在实际研究里非常常见。不管你有没有系统学习过，对于线性回归，相信多少都有那么...
spssau阅读 1,120评论 0赞 1

赞1赞

赞赏

手机看全文