R语言初级作业

R语言初级作业

  1. 打开 Rstudio 告诉我它的工作目录。
getwd()
  1. 新建6个向量,基于不同的原子类型。(重点是字符串,数值,逻辑值)
# 首先明确6种不同的原子类型(atomic vectors):1.numberic(数值) 2. character(字符), 3. logical(逻辑型) 4. interger(整数) 5. complex(复数) 6. raw(原始)
v1=c(1,2,3,4,5)
v2=c("a","b","c")
v3=c(TRUE,TRUE,FALSE)
v4=3L 
v5=2i+1
v6=charToRaw('raw')
  1. 新建一些数据结构,比如矩阵,数组,数据框,列表等重点是数据框,矩阵)
# 数据结构,在R中主要有:1. vectors|向量 2.Lists|列表 3. Matrics|矩阵 4. Arrays|数组 5. Factors |因子 6. DataFrames|数据框
v1<- c(1:15)
list_1<- list(v1,"3",FALSE)
mat_1<- matrix(c(1:15),nrow=3,byrow=T)
arr_1<- array(c("a","b"),dim=c(3,2,2))
fac_1<-factor(v1)
df_1<- data.frame(roomates=c("xl","xw","xl"),
                 height=c("174","180","145"),
                 weight=c("70","80","145"),
                 age=c("19","21","120"),
                 glass=c("na","d","na"),
                 food=c("lamian","mifan","xiangjiao"))
  1. 在你新建的数据框进行切片操作,比如首先取第1,3行, 然后取第4,6列
df_1[1,] #第1行
df_1[3,] #第3行
df_1[c(1,3),] #第1行与第3行
df_1[,4]#第4列
df_1[,6]#第6列
df_1[,c(4,6)] #第4列与第6列
  1. 使用data函数来加载R内置数据集 rivers 描述它。
rivers
head(rivers)
typeof(rivers)
summary(rivers)
tail(rivers)
length(rivers)
str(rivers)
plot(rivers)
  1. 下载 https://www.ncbi.nlm.nih.gov/sra?term=SRP133642 里面的 RunInfo Table 文件读入到R里面,了解这个数据框,多少列,每一列都是什么属性的元素。
rm(list = ls())
options(stringsAsFactors = F)
a=read.csv(file = "SraRunTable (1).txt",sep = '\t',header = T)
class(a)
dim(a)
str(a)
  1. 下载 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE111229 里面的样本信息sample.csv读入到R里面,了解这个数据框,多少列,每一列都是什么属性的元素。
# 这次试一下getGEO的方法
library(GEOquery) #加载GEOquery这个包
gset<-getGEO('GSE111229',getGPL = F) #使用getGEO函数下载数据
save(gset,file='gset.Rdata') #数据下载好之后先保存为Rdata
load("gset.Rdata") #导入数据
pdata<- pData(gset[[1]]) #我们要操作的东西都在gset这个大list的第一个List下面,pData功能可以调用数据里的实验内容
class(pdata)
dim(pdata)
colnames(pdata) #geo_accession就是样品名
  1. 把前面两个步骤的两个表(RunInfo Table 文件,样本信息sample.csv)关联起来,使用merge函数。
colnames(a)#因为根据两个表格共有的样本名来进行merge,看一下在不同表格中的列名
df_merge=merge(a,pdata,by.x='Sample_Name',by.y='geo_accession')
  1. 对前面读取的 RunInfo Table 文件在R里面探索其MBases列,包括 箱线图(boxplot)和五分位数(fivenum),还有频数图(hist),以及密度图(density) 。
boxplot(a$MBases)
fivenum(a$MBases)
[1]  0  8 12 16 74
boxplot(a$MBases)
fivenum(a$MBases)
hist(a$MBases)
density(a$MBases)
  1. 把前面读取的样本信息表格的样本名字根据下划线分割看第3列元素的统计情况。第三列代表该样本所在的plate
title=pdata$title
class(title)
title
plate=unlist(lapply(title, function(x){
  x
  strsplit(x,'_')[[1]][3]
}))
plate
table(plate)
plate
0048 0049 
 384  384 
  1. 根据plate把关联到的 RunInfo Table 信息的MBases列分组检验是否有统计学显著的差异。
# plate是指两个384孔板,编号分别是48号与49号;这个之前有所困惑,在原文搜索plate才解答了疑问,也是因为没有做过单细胞测序的流程,不知道需要用到384孔板
t.test(df_merge$MBases~plate)
data:  df_merge$MBases by plate
t = 2.3019, df = 728.18,
p-value = 0.02162
  1. 分组绘制箱线图(boxplot),频数图(hist),以及密度图(density) 。
# 由于这里也不知道MBases的M是什么意思,所以还是有一点疑问。
boxplot(df_merge$MBases~plate)
e=df_merge[,c("MBases","Sample_Name")]
e$plate=plate
head(e)
tail(e)
# hist问题
hist(e$MBases,breaks = "plate") #这样会报错,还没有查到原因
  1. 使用ggplot2把上面的图进行重新绘制。
## https://www.cnblogs.com/muchen/p/5430536.html 参照这个代码的
#boxplot
e$plate=factor(e$plate) 
ggplot(e,aes(x=plate,y=MBases,fill=plate))+
  geom_boxplot()+
  scale_fill_brewer(palette = 'Paste12')
#hist
library(ggplot2)
e$plate=factor(e$plate) #将plate转换为因子类型
e$plate
ggplot(e,aes(x=MBases))+
  geom_histogram(fill='lightblue',colour='black')+
  facet_grid(plate ~ .) 
#密度图
ggplot(e,aes(x=plate,y=MBases))+
  geom_point()+
  stat_density2d(aes(alpha=..density..),geom="raster",contour=F)
boxplot.jpg

density.jpg

histgram.jpg
  1. 使用ggpubr把上面的图进行重新绘制。
# 直接试了答案的代码
library(ggpubr)
p<-ggboxplot(e,x="plate",y="MBases",
             color = "plate",palette = 'jco',
             add = 'jitter')
p+stat_compare_means(method = 't.test')
last.jpg
  1. 随机取384个MBases信息,跟前面的两个plate的信息组合成新的数据框,第一列是分组,第二列是MBases,总共是384*3行数据。
 #使用sample函数,不知道有没有理解对题目
new=sample(e[,1],385,replace = F)
new
new_1=e[new,]
new_1=new_1[,c(3,1,2)]

花费时间总共5个小时,主要卡在了对于实验设计的不理解,plate那里不是很懂,内置的hist以及density也没有搜到好用的教学,可能得从头翻一下视频。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,817评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,329评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,354评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,498评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,600评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,829评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,979评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,722评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,189评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,519评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,654评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,329评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,940评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,762评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,993评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,382评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,543评论 2 349