R语言入门5:数据变形-Tidyr

1.Tidy data原则

当我们进行数据整理时,同样的数据,可以整理成不同的形式,在下面的例子中,我们可以把GeneId作为行,样品名称作为列,也可以颠倒过来,以样品名称为行,基因编号作为列:

image

当我们用R处理数据时,应该遵循Tidy data的原则:

  • 每一列:代表一个变量(vairable)
  • 每一行:代表一次观测(observation)

在我们上面的例子中,基因的ID,样品名称以及基因的表达量都是变量,而每一个基因在每一个样品中的表达量可以成为一次观测。因此,按照Tidy data的原则,应该将上述图表中的数据整理成如下格式:

image

我们在正式对生物信息学数据进行统计分析之前,应该先把我们的数据格式转换为Tidy data格式,因为R语言中的大多数包都只支持Tidy data格式的数据。

2.使用Tidyr转换数据格式

(1)Tidyr的安装

在使用Tidy之前,首先要下载安装软件包:

1)修改下载源

依次点击Tools--Global Options--Packages--Change,选择一个国内的CRAN镜像

image

2)下载安装Tidyr

点击Tools--Install Packages,输入要安装的软件包tidyr,点击install即可自动安装:

image

或者,我们也可以使用命令行进行软件的安装:

# 使用install.package()命令安装软件
> install.packages("tidyr")

(2) 数据的转换-1

1)转换策略

image

我们的目的是要把左边的数据转换成右边的格式,要实现转换结果,在Geneid一定的情况下,我们可以把每一个样品和其对应的基因表达量看做一个键-值对(key-value pair)。比如:在GeneID为gene1时,sample1对应的表达量是3,sample2对应的表达量是4。因此,我们在转换数据时,只需按照上述规则,并指定要转换的列即可。使用tidyr包中的gather函数即可实现转换。

2)加载包

在使用Tidyr包之前,我们需要先加载包:

# 加载tidyr包
> library(tidyr)

3)使用gather命令将数据转换为Tidy格式

  • 1.读取数据:
> gene_exp <-  read.table(file = "gene_exp.txt", sep = "\t", header = TRUE)
> gene_exp
  GeneId Sample1 Sample2 Sample3
1  gene1       1     2.0     0.3
2  gene2       4     5.0     6.0
3  gene3       7     0.8     9.0
4  gene4      10    11.0    12.0

原始数据是这样的:

image
  • 2.格式转换
# gather()命令转换说明:
# gather(data=数据框名,key="key名",value="value名",要转换的列1,列2,列3)
> gene_exp_tidy <- gather(data = gene_exp, key = "sample_name", value = "expression", Sample1, Sample2, Sample3)
# 在指定要转换的列时,也可不用列名,直接指定列的编号即可
> gene_exp_tidy <- gather(data = gene_exp, key = "sample_name", value = "expression", 2:4)
#  在指定要转换的列时,也可指定不需转换的列,其他列参与转换
> gene_exp_tidy <- gather(data = gene_exp, key = "sample_name", value = "expression", -GeneId)

转换后的效果:


image

4)使用spread()函数将Tidy格式数据还原

Tidyr中的spread()函数,可以将Tidy格式的数据,转换成原来的格式:

> spread(data = gene_exp_tidy, key = "sample_name", value = "expression")
  GeneId Sample1 Sample2 Sample3
1  gene1       1     2.0     0.3
2  gene2       4     5.0     6.0
3  gene3       7     0.8     9.0
4  gene4      10    11.0    12.0

(3) 数据的转换-2

有时,在数据处理时,我们会遇到下面这种更加复杂的情况,在GeneId一定的情况下,每一样品还对应不同的温度:

image

对这样的数据,我们应该如何处理呢?

1)处理策略

  • 1.先使用gather()函数,按列进行转换
  • 2.再使用spread()函数,将Sample和温度分开

2)数据处理

  • 1.读取数据
# 读取数据
> gene_exp3 <- read.table(gene_exp3.txt, sep = "\t", header = TRUE)
  • 2.使用gather()函数处理
> gene_exp3_tidy <- gather(gene_exp3, key, Expression, -GeneId)

gather()处理后的结果:

image
  • 3.使用seprate()函数,对key这一列进行分割
> gene_exp3_tidy2 <- separate(gene_exp3_tidy, col = key, into = c("SampleName","Temperature"))

最终的效果如下:

image
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,639评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,277评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,221评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,474评论 1 283
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,570评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,816评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,957评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,718评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,176评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,511评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,646评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,322评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,934评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,755评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,987评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,358评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,514评论 2 348

推荐阅读更多精彩内容