R语言-白葡萄酒数据集探索

查看数据基本情况

data<-read.csv("/Users/xxx/Desktop/whitewine.csv",sep=",",header = TRUE)

head(data)

class(data)

str(data)

library(mice)

library(VIM)

md.pattern(data)

aggr(data,prop=F,numbers=T)

head()

查看数据集缺失值

可以看出缺失两个，那么就要去掉

data<-data[-which(is.na(data[,2])),] aggr(data,prop=F,numbers=T)

单变量分析

由于我们最关注葡萄酒质量分布情况，所以对质量进行单变量分析

ggplot(aes(x=quality),data=data) + geom_bar()+scale_x_continuous(lim=c(3,9),breaks = seq(3,9,1))

质量的单变量分析

呈正态分布，很好

双变量分析

ggplot(data,aes(x=quality,y=density,group=quality))+geom_boxplot()

质量和密度之间的关系

糟糕，看到了离群值，删去

ylim1<-boxplot.stats(data$density)$stats[c(1, 5)]

ggplot(data = data,aes(x=quality,y=density,group=quality))+geom_boxplot()+

coord_cartesian(ylim = ylim1)

多变量分析

ggplot(aes(x = alcohol, y = density, color = factor(quality)), data = data) +

geom_jitter(alpha = 0.2) +

scale_color_brewer(palette = "Blues") +

geom_smooth(method = "lm", se = FALSE,size=1) +

ylim(0.985, 1.005) +

labs(y = 'Density',x = 'Alcohol') +

ggtitle("density VS alcohol VS quality")

由于quality是等序变量，所以用不同颜色的渐变表示

ggplot(data,aes(x=alcohol,y=density,colour=factor(quality)))+geom_point()+facet_wrap(~quality)

想要原始数据，就在下面点个喜欢吧，然后留言就可以了～

6.1日更：最近事多没上简书，忽然发现好多人要数据集。

由于原创不易，你点个喜欢，然后就可以私信向我要数据集了，算是对我的支持吧。

R语言-白葡萄酒数据集探索

查看数据基本情况

单变量分析

双变量分析

多变量分析

推荐阅读更多精彩内容