第1章-使用ggplot2进行数据可视化


title: "第1章 使用ggplot2进行数据可视化"
author: "Hannisal"
date: "2020/7/28"
output:
html_document: default
pdf_document: default


if (!require(tidyverse)) install.packages("tidyverse") ## 安装tidyverse包
library(tidyverse)

如果想要明确指出某个函数(或数据集)的来源,那么可以使用特殊语法形式package::function()。例如,ggplot2::ggplot()明确指出了我们使用的是ggplot包中的ggplot()函数

mpg
ggplot(data = mpg)+
  geom_point(mapping = aes(x = displ,y = hwy))

在ggplot2中,你可以使用函数ggplot()函数开始绘图.ggplot()创建了一个坐标系,你可以在它上面添加图层。ggplot()的第一个参数是要在图中使用的数据集。ggplot(data=mpg)会创建一张空白图。

向ggplot中添加一个或多个图层就可以完成这张图。函数geom_point()向图中添加一个点层,这样就可以创建一张散点图。ggplot2中包含了多种集合对象函数,每种函数都可以向图中添加不同类型的图层。

ggplot2中的每个集合对象函数都有一个mapping参数。这个参数定义了如何将数据集中的变量映射为图形属性。mapping参数总是与aes()函数成对出现,aes()函数的x参数和y参数分别指定了映射到x轴的变量与映射到y轴的变量。ggplot2在data参数中寻找映射变量。

1.绘图模板

ggplot(data = <DATA>)+
<GEOM_FUNCTION>(mapping = aes(<MAPPINGS>))

更改图形属性:颜色,大小,形状

color参数设定颜色

ggplot(data = mpg)+
  geom_point(mapping = aes(x = displ,y = hwy,color = class))

也可手动设定,只需把color参数一道aes()外

ggplot2会自动为每个变量值分配唯一的图形属性水平,这个过程称为标度变换

size参数设定大小

ggplot(data = mpg)+
  geom_point(mapping = aes(x = displ,y = hwy,size = class))

alpha参数设定数据点透明度

ggplot(data = mpg)+
  geom_point(mapping = aes(x = displ,y = hwy,alpha = class))

shape参数设定数据点形状

ggplot(data = mpg)+
  geom_point(mapping = aes(x = displ,y = hwy,shape = class))

注意:ggplot2只能同时使用6种形状。默认情况下,当使用这种图形属性时,多出的变量值将不会出现在图中

2.分面

单个变量分面:可以使用函数facet_wrap()。其第一个参数是一个公式,创建公式的方式是在~符号后面加一个变量名。此外,传递给facet_wrap()的变量应该是离散型的

ggplot(data = mpg)+
  geom_point(mapping = aes(x = displ,y = hwy))+
  facet_wrap(~class,nrow = 2)

两个变量分面:需要使用函数facet_grid()。这个函数的第一个参数也是公式,但该公式包含由~隔开的两个变量名。

ggplot(data = mpg)+
  geom_point(mapping = aes(x = displ,y = hwy))+
  facet_grid(drv~cyl)

如果不想在行或列的维度进行分面,可以使用.来代替变量名,例如+facet_grid(.~cyl)

ggplot(data = mpg)+
  geom_point(mapping = aes(x = displ,y = hwy))+
  facet_grid(.~cyl)

3.几何对象

几何对象是图中用来表示数据的几何图形对象。我们经常根据图中使用的几何对象类型来描述相应的图。例如条形图使用了条形几何对象,折线图使用了直线几何对象,箱线图使用了矩形和直线几何对象。散点图打破了这种趋势,它们使用了点几何对象。

对比看一下,散点图和平滑曲线图

ggplot(data = mpg)+
  geom_point(mapping = aes(x = displ,y = hwy))
ggplot(data = mpg)+
  geom_smooth(mapping = aes(x = displ,y = hwy))

geom_smooth()函数可以按照不同的线型绘制出不同的曲线,每条曲线对应映射到线型的变量的一个唯一值:

ggplot(data = mpg)+
  geom_smooth(mapping = aes(x = displ,y = hwy,linetype = drv))

如何设置全局映射:

ggplot(data = mpg,mapping = aes(x = displ,y = hwy))+
  geom_point()+
  geom_smooth()

这样ggplot2会将这些映射作为全局映射应用到图中的每个几何对象中。此外,如果将映射放在几何对象函数中,那么ggplot2会将其看作这个图层的局部映射,它将使用这些映射扩展或覆盖全局映射,但仅对该图层有效。

ggplot(data = mpg,mapping = aes(x = displ,y = hwy))+
  geom_point(mapping = aes(color = class))+
  geom_smooth()

geom_smooth()函数中的局部数据参数覆盖了ggplot()函数中的全局数据参数:

ggplot(data = mpg,mapping = aes(x = displ,y = hwy))+
  geom_point(mapping = aes(color = class))+
  geom_smooth(
    data = filter(mpg,class == "subcompact"),
    se = FALSE
  )
filter函数选出calss=subcompact的数据,se=F不显示置信去间

4.统计变换

ggplot(data = diamonds)+
  geom_bar(mapping = aes(x = cut))

条形图、直方图和频率多边形图可以对数据进行分箱,然后绘制出分箱数量和落在每个分箱的数据点的数量。

平滑曲线会为数据拟合一个模型,然后绘制出模型预测值

箱线图可以计算出数据分布的多种摘要统计量,并显示一个特殊形式的箱体。

绘图时用来计算新数据的算法称为stat(statistical transformation,统计变换),我们可以查看帮助文档,获取目标几何对象用了那种统计变换。

通常来说,几何对象函数和统计变换函数可以互换使用。例如,你可以使用stat_count()替换geom_bar()来重新生成前面那张图:

ggplot(data = diamonds)+
  stat_count(mapping = aes(x = cut))

但是有些时候我们使用的集合对象不需要统计变化,而是用已有的数据代替统计变换的结果,可以将统计变换的计数count设置为表示identity:

demo<- tribble(
  ~a,     ~b,
  "bar_1",20,
  "bar_2",30,
  "bar_3",40
)
ggplot(data = demo)+
  geom_bar(
    mapping = aes(x = a,y = b),stat = "identity"
    )

又或者你需要显示比例,而不是计数

ggplot(data = diamonds)+
  geom_bar(
    mapping = aes(x = cut,y = ..prop..,group = 1)
  )

你可能想要在代码中强调统计变换。例如,你可以是用stat_summary()函数将人们注意力吸引到你计算出的哪些摘要统计量上。stat_summary()函数为x的每个唯一值计算y值的摘要统计:

ggplot(data = diamonds)+
  stat_summary(
    mapping = aes(x = cut,y = depth),
      fun.ymin = min,
      fun.ymax = max,
      fun.y = median
  )

比较一下下面没有group=1的

ggplot(data = diamonds)+
  geom_bar(mapping = aes(x = cut,y = ..prop..))
ggplot(data = diamonds)+
  geom_bar(
    mapping = aes(x = cut,fill = color,y = ..prop..)
  )

5.位置调整

color或者fill为条形图上色,前者边框,后者填充

ggplot(data = diamonds)+
  geom_bar(mapping = aes(x = cut,color = cut))
ggplot(data = diamonds)+
  geom_bar(mapping = aes(x = cut,fill = cut))

如果将fill图形属性映射到另一个变量(如clarity),那么条形会自动分块堆叠起来。每个彩色矩形表示cut和clarity的一种组合。

ggplot(data = diamonds)+
  geom_bar(mapping = aes(x = cut,fill = clarity))

position参数设定的位置调整功能,有三个选项:identity,fill,dodge

position = "identity"将每个对象直接显示在图中。这种方式不太适合条形图,因为条形会彼此重叠。为了让重叠部分能够显示出来,我们可以设置alpha参数为一个较小的数,从而使得条型略微透明;或者设定fill=NA,让条形完全透明:

ggplot(
  data = diamonds,mapping = aes(x = cut,fill = clarity)
)+
  geom_bar(alpha = 1/5,position = "identity")
ggplot(
  data = diamonds,
  mapping = aes(x= cut,color= clarity)
)+
  geom_bar(fill= NA,position = "identity")

position="fill"的效果与堆叠相似,但每组堆叠条形具有相同的高度,因此这种条形图可以非常轻松地表较各组间地比例:

ggplot(data = diamonds)+
  geom_bar(
    mapping = aes(x =cut,fill = clarity),
    position = "fill"
  )

position="dodge"将每组地条形一次并列放置这样可以非常轻松地比较每个条形表示的具体数值:

ggplot(data = diamonds)+
  geom_bar(
    mapping = aes(x = cut,fill = clarity),
    position = "dodge"
  )

另外,对于散点图,绘制时候,往往会对值进行舍入取整,所以这些点显示在一个网格上时,很多点彼此重叠了,这个问题叫做过绘制。我们可以通过将位置调整方式设为“抖动”,可以避免这种网格化排列。position="jitter"为每个点添加一个很小地随机扰动。尽管会损失图形地精确性,但可以大大提高图形的启发性。

ggplot(data = mpg)+
  geom_point(
    mapping = aes(x = displ,y = hwy),
    position = "jitter"
  )

也可通过geom_jitter()快速实现

ggplot(data = mpg)+
  geom_jitter(
    mapping = aes(x = displ,y = hwy),
  )

6.坐标轴

coord_flip()函数可以交换x轴和Y轴。

ggplot(data = mpg,mapping = aes(x=class,y = hwy))+
  geom_boxplot()
ggplot(data = mpg,mapping = aes(x = class,y = hwy))+
  geom_boxplot()+
  coord_flip()

coord_quickmap()函数可以为地图设置合适的纵横比,当使用ggplot2绘制空间数据时,这个函数特别中还要。

nz<-map_data("nz")

ggplot(nz,aes(long,lat,group= group))+
  geom_polygon(fill= "white",color="black")
ggplot(nz,aes(long,lat,group= group))+
  geom_polygon(fill= "white",color="black")+
  coord_quickmap()

coord_polar()函数使用极坐标系。极坐标系可以揭示出条形图和鸡冠花图间的一种有趣联系:

bar<-ggplot(data = diamonds)+
  geom_bar(
    mapping = aes(x = cut,fill=cut),
    show.legend = FALSE,
    width = 1
  )+
  theme(aspect.ratio = 1)+
  labs(x = NULL,y = NULL)

bar+ coord_flip()
bar+ coord_polar()
参考《R数据科学》
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,463评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,868评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,213评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,666评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,759评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,725评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,716评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,484评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,928评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,233评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,393评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,073评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,718评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,308评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,538评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,338评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,260评论 2 352