复习
- 标量:数字或者一串字符
向量:c(数字或者字符串)
几种类型:
c(1,2,3) 1:10 seq(1,10,by=0.5) rep (1:3,times=2)
- 赋值 字母,数字,字符串,单词等均可赋值,新的赋值可代替旧的赋值
- 元素提取 例如 x[],用中括号
- 数据框读取:read.table() 括号内是 file=" txt",sep= '' '' ,header=T
read.csv(' txt') colnames() rownames()
5 数据框导出 write.table( X,file=" txt",sep=' ',quote=F)
- 保存和加载: save.image(file="bioinfoplanet.RData"),save(X,file= "test.RData") load(test.RData)
day6
install.package(包),
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/")
install.packages("dplyr")
library(dplyr)
iris示例
赋值test<-iris[c(1:2,51:52,101:102)]
dplyr的五个基础函数
- mutate()
例如mutate(test, new = Sepal.Length * Sepal.Width)
2.select()
例如: select(test,c(1,5)).select(test,Sepal.Length) select(test, Petal.Length, Petal.Width) - filter()
例如 ilter(test, Species == "setosa") - arrange()
例如:arrange(test, Sepal.Length)
arrange(test, desc(Sepal.Length))
desc是从大到小
5.summarise() 汇总
group_by() 更实用
dplyr 两个实用技能
- %>% 快捷键 shift+ctr+m 管道符号
test %>%
group_by(Species) %>%
summarise(mean(Sepal.Length), sd(Sepal.Length)) - count统计列表 count(test,Species)
- dplyr 处理关系数据
赋值 test1 test2
内连:inner_join(test1, test2, by = "x")
左连:left_join(test1, test2, by = 'x')
全连:full_join( test1, test2, by = 'x')
半连:semi_join(x = test1, y = test2, by = 'x')
反连:anti_join(x = test2, y = test1, by = 'x')
合并:bind_rows(test1, test2) bind_cols(test1, test3)