1. 安装和加载R包
1.1.镜像设置
options("repos" = c(CRAN="[https://mirrors.tuna.tsinghua.edu.cn/CRAN/)")) #对应清华源
options(BioC_mirror="[https://mirrors.ustc.edu.cn/bioc/)") #对应中科大源
(1)R的配置文件 .Rprofile:①file.edit('~/.Rprofile')→写入代码→保存
(2)在刚开始运行Rstudio的时候,程序会查看许多配置内容,其中一个就是.Renviron,它是为了设置R的环境变量;.Rprofile就是一个代码文件,如果启动时找到这个文件,那么就替我们先运行一遍(这个过程就是在启动Rstudio时完成的)。
(3)镜像查看:options()$repos
;options()$BioC_mirror
1.2.安装:
install.packages(“包”)
或者BiocManager::install(“包”)
1.3.加载:
library(包)
或者require(包)
1.4.示例:
options("repos" = c(CRAN="[https://mirrors.tuna.tsinghua.edu.cn/CRAN/)")) options(BioC_mirror="[https://mirrors.ustc.edu.cn/bioc/)") install.packages("dplyr") library(dplyr)
2. dplyr五个基础函数(示例:test <- iris[c(1:2,51:52,101:102),]
)
2.1. mutate(),新增列:
mutate(test, new = Sepal.Length * Sepal.Width)
新增Sepal长度和宽度相乘的一列
2.2. select(),按列筛选
(1)按列号筛选:select(test,1)
选择第一列;select(test,c(1,5))
选择第一列和第五列;
(2)按列名筛选:select(test, Petal.Length, Petal.Width)
选择Petal.Length, Petal.Width两列;
2.3. filter()筛选行:
filter(test, Species == "setosa")
选择setosa物种的行;filter(test, Species == "setosa"&Sepal.Length > 5 )
选择setosa物种并且Sepal长度大于5的行;filter(test, Species %in% c("setosa","versicolor"))
选择有setosa,versicolor这两个物种的行
2.4. arrange(),按某1列或某几列对整个表格进行排序:
arrange(test, Sepal.Length)
按Sepal.Length这一列进行排序,默认从小到大;arrange(test, desc(Sepal.Length))
按Sepal.Length这一列进行排序,desc从大到小
2.5. summarise(),汇总:
summarise(test, mean(Sepal.Length), sd(Sepal.Length))
mean平均值,sd标准差 ;group_by(test, Species)
将不同物种的数据分组整理
3. dplyr两个实用技能
3.1. 管道操作 %>% (快捷键ctr + shift + M)
3.2. count统计某列的unique值
4. dplyr处理关系数据
4.1. 內连inner_join:返回两个表中所有相匹配的数据,而舍弃不匹配的数据
4.2. 左连left_join:保留 x 中的所有观测
4.3. 全连full_join:保留 x 和 y 中的所有观测
4.4. 半连接semi_join:返回能够与y表匹配的x表所有记录
4.5. 反连接anti_join:返回无法与y表匹配的x表的所记录
4.6. 简单合并:cbind()函数和rbind()函数
bind_rows()函数需要两个表格列数相同,而bind_cols()函数则需要两个数据框有相同的行数