几个术语
变量、值、观测、表格数据
5.3 变动
条形图:分类变量geom_bar
直方图:连续变量(直方图对x轴进行等宽分箱)geom_histogram
典型值
异常值(确定异常值的原因)
p70练习题
1.
首先把x,y,z换个名字
mutate(id = row_number()) %>%
+ select(x, y, z, id) %>%
+ gather(variable, value, -id) %>%
+ ggplot(aes(x = value)) +
+ geom_density() +
+ geom_rug() +
+ facet_grid(variable ~ .)
把geom_rug去掉图形好像也没差。
2.
ggplot(diamonds, aes(x = price)) +
geom_histogram(binwidth = 10)
3.
0.99 克拉的有23个,1克拉的有1558个,1克拉的比0.99克拉的多得多
凑整吧
4.
coord_cartesian() 是在计算并绘制图表后,放大特定区间。所以图形不受影响。
但是,xlim() and ylim()函数是在计算柱状图分箱前发挥作用,所以在限制值之外的 观测值被丢弃后,再计算分箱。
ggplot(diamonds) +
geom_histogram(mapping = aes(x = price)) +
coord_cartesian(xlim = c(100, 5000), ylim = c(0, 3000))
ggplot(diamonds) +
geom_histogram(mapping = aes(x = price)) +
xlim(100, 5000) +
ylim(0, 3000)
5.4 缺失值
代替异常数值
diamonds2 <- diamonds %>%
mutate (y = ifelse(y < 3 | y >20,NA, y))
ifelse(test,yes,false)三个参数
p72练习
- 直方图中,缺失值直接被丢弃。条形图中,缺失值是被当成另一个分类的。
- 缺失值在计算之前被丢弃
5.5 相关变动
coord_flip() 图形旋转90度
geom_tile()
geom_bin2d() (长方形分箱)和 geom_hex()(六边形分享),将坐标平面分为二维分箱
cut_width(x,width),将x分成width的分箱,varwidth = TRUE,箱线图宽度与观测数量成正比。