knitr::opts_chunk$set(message=FALSE,warning=FALSE,echo=FALSE)
单变量分析部分
setwd("~/Downloads")
project_data<- read.csv('r_ project _data.csv')
dim(project_data)
names(project_data)
summary(project_data)
数据由13个变量组成,1599种红葡萄酒的数据
library(ggplot2)
sum(is.na(project_data$quality))
ggplot(aes(x=quality),data=project_data)+
geom_histogram()
summary(project_data$quality)
其中最差的葡萄酒质量是3,最好的葡萄酒质量是8,大多数的葡萄酒质量都在5和6之间;
ggplot(aes(x=alcohol),data=project_data)+
geom_histogram()
酒精-长尾数据转为近似正态分布的数据
ggplot(aes(x=alcohol),data=project_data)+
geom_histogram()+
scale_x_log10()+
scale_x_continuous(breaks=seq(0,15,1))
summary(project_data$alcohol)
大多数酒精度在9-11之间,酒精度较高的酒逐渐减少
ggplot(aes(x=residual.sugar),data=project_data)+
geom_histogram()
从图中可以看出,糖量有一些异常值,对异常值进行处理
#project_data$chuli=transform(project_data,)
ggplot(aes(x=residual.sugar),data=project_data)+
geom_histogram()+
coord_trans(limx=c(0,8))
scale_x_continuous(breaks=seq(0,8,1))
糖量大部分都在1-4之间,糖量大的酒逐渐减少,
查阅资料刻制,糖酸比是影响评价指标的一个重要因素,糖酸比指总糖和总算的比值。所以我将定义一个新的变量糖酸比。
project_data<-transform(project_data,ratio=(residual.sugar/fixed.acidity))
ggplot(aes(x=ratio),data=project_data)+
geom_histogram()
对异常值进行处理,将图放大
ggplot(aes(x=ratio),data=project_data)+
geom_histogram(binwidth = 0.01)+
coord_trans(limx=c(0.1,0.5))+
scale_x_continuous(breaks=seq(0,0.7,0.1))
ggplot(aes(x=ratio),data=project_data)+
geom_histogram()+
scale_x_log10()
对糖酸比通过log转换为近似正态分布的数据。
summary(project_data$ratio)
糖酸比大多数都在。023·0.33之间,中位数是0.27
ggplot(aes(x=fixed.acidity),data=project_data)+
geom_histogram()+
scale_x_continuous(breaks=seq(4,16,1))
summary(project_data$fixed.acidity)
大部分酒固定的酸度在7到9之间。
ggplot(aes(x=volatile.acidity),data=project_data)+
geom_histogram(binwidth = 0.02)+
scale_x_continuous(breaks=seq(0,1.6,0.2))
ggplot(aes(x=volatile.acidity),data=project_data)+
geom_histogram(binwidth = 0.02)+
scale_x_log10()+
scale_x_continuous(breaks=seq(0,1,0.1))
summary(project_data$volatile.acidity)
挥发性酸越大酒越多,当挥发性酸到0.4后有个下降,挥发性酸在0.6的酒最多,之后挥发性酸越大的酒越少
ggplot(aes(x=citric.acid),data=project_data)+
geom_histogram()
ggplot(aes(x=citric.acid),data=project_data)+
geom_histogram(binwidth=0.01)+
scale_x_continuous(breaks=seq(0,0.8,0.1))
summary(project_data$citric.acid)
没有柠檬酸的酒最多,其次是柠檬酸在0.5的酒。
ggplot(aes(x=chlorides),data=project_data)+
geom_histogram(binwidth = 0.002)
ggplot(aes(x=chlorides),data=project_data)+
geom_histogram(binwidth = 0.002)+
coord_trans(limx=c(0.03,0.16))+
scale_x_continuous(breaks=seq(0,0.2,0.05))
summary(project_data$chlorides)
氯化物去除过小过大的数据后,氯化物的含量大多数都在0.07-0.09之间,含量最低是0.012,含量最高是0.611。
ggplot(aes(x=free.sulfur.dioxide),data=project_data)+
geom_histogram(binwidth =1)
ggplot(aes(x=free.sulfur.dioxide),data=project_data)+
geom_histogram(binwidth =1)+
scale_x_continuous(breaks=seq(0,60,2))+
coord_trans(limx=c(0,40))
summary(project_data$free.sulfur.dioxide)
二氧化硫在6的酒最多,随后随着二氧化硫越多,酒越少。
ggplot(aes(x=pH),data=project_data)+
geom_histogram()
pH呈现很好的正态分布,大多数都位于3.2-3.5之间,呈现酸性,整个pH值变化不大。
单变量分析小结
在数据集中有1599种红酒,具有13个特征,即13个输入变量,包括: x,固定酸度、挥发酸度、柠檬酸、残糖、氯化物、游离二氧化硫、二氧化硫总量、密度、pH、硫酸盐、酒精。以及一个有序因子,即输出变量质量。 其中质量分为3、4、5、6、7、8这几个级别。 其他意见; 大多数红酒的评级在5、6、7之间。
酒精含量的中位数为10.2。 * PH值大多位于3.2-3.5之间。
数据集中主要特征实质量和酒精,数据集中异常值,利用log()或者sqrt()手段将长尾数据转为近似正态分布的数据,这是为了更好的看出该数据的特征。
数据集中的主要特征是质量和酒精,我想确定那些特征影响了酒的质量,我怀疑酒精度和其他变量的一些组合一起影响了红酒的质量。
酒精度、硫酸盐、pH、挥发性酸等会影响红酒的质量,我认为酒精浓度和硫酸盐对质量影响最大。
我利用红酒的糖量和酸度创建了一个变量糖酸比。
在进行氯化物绘图去除了过大的数据,因为那部分氯化物似乎太大了,在进行糖酸比绘图的时候,将长尾数据通过log转换成近似正态分布的数据,对挥发性酸也进行了对数转换,转换后挥发性酸分布呈双峰态,挥发性酸在0.4和0.6最多,在0.5有个大的降低,将数据进行对数转换是为了更好的看出该数据的特征。
在散点图矩陈中,在每对变量之间有一个散点图网格
散点图矩陈不适用于分类变量,当变量分类时用箱线图或直方图
双变量分析
library(GGally)
#theme_set(theme_minimal(20))
#set.seed(1836)
#pf_subset<- project_data[,c(1:15)]
#names(pf_subset)
#ggpairs(pf_subset[sample.int(nrow(pf_subset),1000),])
#names(project_data)
#matrix(project_data)
pp_subset<- project_data[,c(1:13)]
ggpairs(pp_subset[sample.int(nrow(pp_subset),1599),])
从图中可以看出,酒精似乎和质量的相关性较强,
具体看看酒精和质量的关系
查看质量与酒精浓度的图
ggplot(aes(x=quality,y=alcohol),data=pp_subset)+
geom_point()
抖动数据
ggplot(aes(x=quality,y=alcohol),data=pp_subset)+
geom_point(alpha=0.3,position=position_jitter(h=0))
酒精浓度和质量分析
###酒精浓度
x <- as.factor(pp_subset$quality)
y <- pp_subset$alcohol
df <- data.frame(x=x,y=y)
ggp <- ggplot(df)
ggp <- ggp + geom_boxplot(aes(x=as.factor(x),y=y))
ggp <- ggp + geom_smooth(method='lm',se=TRUE,
formula=y~as.numeric(x),
aes(x=as.numeric(x), y=y))+
ylab('alcohol')+xlab('quality')
ggp
随着酒精浓度的增加,似乎一个酒精浓度能对应很多个质量的酒精,但将其过度绘制(抖动)后,能看出酒精和质量具有一定的相关性。
经过散点图的绘制,发现单纯的散点图并不能特别清楚的表现变量之间的关系,而质量又是分等级的,所以将其作为分类变量,进行进一步的处理。
pp_subset$quality=factor(pp_subset$quality)
p2<-qplot(x=quality,y=alcohol,
data=pp_subset,
geom='boxplot')
p1<-ggplot(aes(x=quality,y=alcohol),data=pp_subset)+
geom_point(alpha=0.3,position=position_jitter(h=0))
p2+geom_boxplot(col="blue",pch=16,cex=1)+
geom_point(position="jitter",alpha=0.08)
names(project_data)
x <- as.factor(project_data$quality)
y <- project_data$ratio
df <- data.frame(x=x,y=y)
ggp <- ggplot(df)
ggp <- ggp + geom_boxplot(aes(x=as.factor(x),y=y))
ggp <- ggp + geom_smooth(method='lm',se=TRUE,
formula=y~as.numeric(x),
aes(x=as.numeric(x), y=y))+
ylab('ratio')+xlab('quality')
ggp
从图中可以看出 糖酸比几乎根质量没有关系。
qplot(x=quality,y=sulphates,
data=pp_subset,
geom='boxplot')+geom_boxplot(col="blue",pch=16,cex=1)+
geom_point(position="jitter",alpha=0.08)
x <- as.factor(pp_subset$quality)
y <- pp_subset$pH
df <- data.frame(x=x,y=y)
ggp <- ggplot(df)
ggp <- ggp + geom_boxplot(aes(x=as.factor(x),y=y))
ggp <- ggp + geom_smooth(method='lm',
se=TRUE,formula=y~as.numeric(x),
aes(x=as.numeric(x), y=y))+
ylab('pH')+xlab('quality')
ggp
qplot(x=quality,y=free.sulfur.dioxide,
data=pp_subset,
geom='boxplot')+geom_boxplot(col="blue",pch=16,cex=1)+
geom_point(position="jitter",alpha=0.08)+
geom_smooth(method='lm',se=TRUE,
formula=free.sulfur.dioxide~as.numeric(quality),
aes(x=as.numeric(quality), y=free.sulfur.dioxide))
x <- as.factor(pp_subset$quality)
y <- pp_subset$free.sulfur.dioxide
df <- data.frame(x=x,y=y)
ggp <- ggplot(df)
ggp <- ggp + geom_boxplot(aes(x=as.factor(x),y=y))
ggp <- ggp + geom_smooth(method='lm',se=TRUE,
formula=y~as.numeric(x), aes(x=as.numeric(x), y=y))+ylab('free.sulfur.dioxide')+xlab('quality')
ggp
###硫酸盐
x <- as.factor(pp_subset$quality)
y <- pp_subset$sulphates
df <- data.frame(x=x,y=y)
ggp <- ggplot(df)
ggp <- ggp + geom_boxplot(aes(x=as.factor(x),y=y))
ggp <- ggp + geom_smooth(method='lm',se=TRUE,
formula=y~as.numeric(x),
aes(x=as.numeric(x), y=y))+
ylab('sulphates')+xlab('quality')
ggp
建立红酒质量的线性模型
library(memisc)
m1<-lm(I(quality)~I(alcohol),data=pp_subset)
m2<-update(m1,~ . + pH)
m3<-update(m2,~ . + volatile.acidity)
m4<-update(m3,~ . + citric.acid)
m5<-update(m4,~ . +residual.sugar)
mtable(m1,m2,m3,m4,m5)
从上述图中可以看出,质量会随着酒精浓度,硫酸盐的添加###量以及pH值的变化而变化,整体而言酒精浓度越高质量越高###,在质量为5的时候酒精浓度反而下降了,因为这是专家主观测试而且还有很多异常值,所以忽略这个下降,
双变量分析小结
观察到质量与酒精度、硫酸盐的含量呈现正比关系,而与pH值呈现反比关系。
质量与酒精度有较强的相关性。
观察到糖酸比这个属性似乎与质量没有关联。并且糖量这个属性似乎与质量也没有什么关系。
发现最强的关系是红酒质量与酒精度成较强的正比关系。
多变量分析
ggplot(aes(x=alcohol,y=density,color=factor(quality)),
data=pp_subset)+
geom_jitter(alpha=0.2)+
scale_color_brewer(palette="Blues")+
geom_smooth(method="lm",se=FALSE,size=1)+
ylim(0.985,1.005)+
labs(y="density",x="alcohol")+
ggtitle('density vs alcohol vs quality')+
theme(plot.title=element_text(hjust=0.5))
从图中可知质量几乎不受 酒精量和密度的共同影响。
ggplot(aes(x=alcohol,y=volatile.acidity,
color=factor(quality)),data=pp_subset)+
geom_jitter(alpha=0.2)+
scale_color_brewer(palette="Blues")+
geom_smooth(method="lm",se=FALSE,size=1)+
labs(y="volatile.acidity",x="alcohol")+
ggtitle('volatile.acidity vs alcohol vs quality')
在这张图中,当酒精浓度较低时,不管挥发性酸如何变化,质量都不高,当挥发性酸比较高时,不管酒精浓度如何变化,质量也不会高,只有在两者都在比较好的区间内,质量才会比较好。
绘制其他图
ggplot(aes(x=alcohol,y=citric.acid,color=factor(quality)),
data=pp_subset)+
geom_jitter(alpha=0.2)+
scale_color_brewer(palette="Blues")+
geom_smooth(method="lm",se=FALSE,size=1)+
labs(y="citric.acid",x="alcohol")+
ggtitle('citric.acid vs alcohol vs quality')
从图中可知当柠檬酸较低时,不管酒精量怎么变化,质量都不高。
ggplot(aes(x=alcohol,y=pH,color=factor(quality)),data=pp_subset)+
geom_jitter(alpha=0.2)+
scale_color_brewer(palette="Blues")+
geom_smooth(method="lm",se=FALSE,size=1)+
labs(y="pH",x="alcohol")+
ggtitle('pH vs alcohol vs quality')
ggplot(aes(x=alcohol,y=sulphates,color=factor(quality)),
data=pp_subset)+
geom_jitter(alpha=0.2)+
scale_color_brewer(palette="Blues")+
geom_smooth(method="lm",se=FALSE,size=1)+
labs(y="sulphates",x="alcohol")+
ggtitle('sulphates vs alcohol vs quality')
ggplot(aes(x=volatile.acidity,y=citric.acid,color=factor(quality)),
data=pp_subset)+
geom_jitter(alpha=0.2)+
scale_color_brewer(palette="Blues")+
geom_smooth(method="lm",se=FALSE,size=1)+
labs(y="citric.acid",x="volatile.acidity")+
ggtitle('volatile.acidity vs citric.acid vs quality')
ggplot(aes(x=pH,y=volatile.acidity,color=factor(quality)),
data=pp_subset)+
geom_jitter(alpha=0.2)+
scale_color_brewer(palette="Blues")+
geom_smooth(method="lm",se=FALSE,size=1)+
labs(y="volatile.acidity",x="pH")+
ggtitle('volatile.acidity vs pH vs quality')
ggplot(aes(x=volatile.acidity,y=sulphates,color=factor(quality)),
data=pp_subset)+
geom_jitter(alpha=0.2)+
scale_color_brewer(palette="Blues")+
geom_smooth(method="lm",se=FALSE,size=1)+
labs(y="sulphates",x="volatile.acidity")+
ggtitle('sulphates vs volatile.acidity vs quality')
建立线性模型
m6<-lm(I(quality)~I(alcohol),data=pp_subset)
m7<-update(m1, ~ . + pH +alcohol)
m8<-update(m1, ~ . + pH +alcohol+sulphates)
m9<-update(m1, ~ . + pH +alcohol+sulphates+volatile.acidity)
m10<-update(m1, ~ . + pH +alcohol+sulphates+volatile.acidity+pH)
mtable(m6,m7,m8,m9,m10)
从以上图可以看出,三个变量之间没有明显的关系,在挥发性酸和酒精浓度极高或极低的时候,基本上评分就取决于这两者。在只有在两者都居中时,评分才会收到其他因素的影响。因此,专家的评分可能是根据以下的线索,当某一变量极高或极低时专家才能明细识别出受到那个变量的影响。
多变量分析小结
第三变量的加入对最后的判断似乎影响不大,只有其中某个值偏大或偏小的时候,评分才会受到这个值的影响,
我认为只有某一项特征偏高或偏低时,质量才会受到影响,因为质量评分是专家评估的,而专家评分我认为只有某个值偏高或偏低时 专家才会敏锐的察觉到,多变量分析证实了我的猜测。
用数据集建立了一个线性模型从质量和酒精度开始。
最终图的总结
ggplot(aes(x=quality),data=project_data)+
geom_histogram()
大部分评分都在中间的5和6之间,相对较低和较高的评分都比较小,大部分酒都没有突出的地方。
图2
x <- as.factor(pp_subset$quality)
y <- pp_subset$alcohol
df <- data.frame(x=x,y=y)
ggp <- ggplot(df)
ggp <- ggp + geom_boxplot(aes(x=as.factor(x),y=y))
ggp <- ggp + geom_smooth(method='lm',se=TRUE,
formula=y~as.numeric(x),
aes(x=as.numeric(x), y=y))+
labs(x='quality ',y='alcohol conten(mg/L)',
title='alcohol with quality')+
theme(plot.title=element_text(hjust=0.5))
ggp
x <- as.factor(pp_subset$quality)
y <- pp_subset$volatile.acidity
df <- data.frame(x=x,y=y)
ggp <- ggplot(df)
ggp <- ggp + geom_boxplot(aes(x=as.factor(x),y=y))
ggp <- ggp + geom_smooth(method='lm',
se=TRUE,formula=y~as.numeric(x),
aes(x=as.numeric(x), y=y))+labs(x='quality',y='volatile.acidity(g/dm^3)',
title='quality with volatile.acidity')+
theme(plot.title=element_text(hjust=0.5))
ggp
具有较高质量的红酒有较高的酒精浓度或较低的挥发性,而低质量的红酒则酒精浓度比较低,或挥发性酸比较高
图3
ggplot(aes(x=alcohol,y=volatile.acidity,color=factor(quality)),
data=pp_subset)+
geom_jitter(alpha=0.2)+
scale_color_brewer(palette="Blues")+
geom_smooth(method="lm",se=FALSE,size=1)+
labs(y="volatile.acidity(mg/^3)",x="alcohol conten(mg/l)")+
ggtitle('volatile.acidity vs alcohol vs quality')+
theme(plot.title=element_text(hjust=0.5))
这图显示单一变量的影响远远大于两个变量的共同影响,只有酒精浓度不低,挥发性酸不高的情况下,质量才会比较不错。
反思总结
红酒数据集中有12个变量,1599瓶红酒信息,一开始进行了每个变量的分析,然后把其中一些变量和质量放在一起分析,最后进行了两个变量和红酒质量的分析,试图找出其中的相关性.在进行双变量分析的时候开始用的散点图进行分析,发现质量这个变量时分类变量没能很好的发现变量之间的关系,改成箱线图进行分析,双变量之间的相互关系就有了一个比较清晰表示的图,在进行多变量分析的时候,发现不管那三个变量,都没有很清晰的关系。在分析过程中对数据分析流程有了一定的了解如单变量——双变量——多变量,对变量分析也有了一些了解如对项目背景的了解找到主要特征变量进行分析。
对于这个数据因为红酒质量是专家评估的我认为这个质量只能说明差的酒质量评分不会高,好的酒质量评分不会差,从这点出发,我会关注评分好的酒和差的酒找出影响它们的主要因素。
所有变量标准化为0-1的值接着求所有变量跟质量的相关性
project_data(mtcars)
dd<-mtcars
scaler<-function(x){
(x-min(x))/(max(x)-min(x))
}
cd<-scaler(project_data)
cor.test(X,Y) ##会返回置信度、置信区间和相关性,这里有三种相关性,自己可以设置
cor(cd)
参考文章-//www.greatytc.com/p/a425acdaf77e
分析-//www.greatytc.com/writer#/notebooks/4134080/notes/24577485
参考-参考-http://blog.csdn.net/qq_16365849/article/details/52734097