R语言学习
今天,了解了R中的数据类型,初步学习R语言的数据结构。
R的数据类型
向量(vector)
- R语言中的向量区别于数学中的向量概念,R语言的向量更类似于数学中集合的概念,即由若干个元素所构成的一维数组。R语言中这些元素可以是数值型或字符型。
用c
函数可以创建,向量中每一项元素都要用,
号隔开。
x <- c(1,2,3,4,5) # 创建数值型向量,赋值给变量x,x中包含五个元素。
y <- c("one","two","three") # 创建字符串型向量,赋值给变量y,y中包含三个元素。
在Environment
窗口,可以看到当前环境下,存在的所有变量的类型及其内容。
创建字符串型向量,一开始我总忘记加" "
,然而不加引号就会提示对象找不到,因此在以后的学习中要特别注意这一细节
向量索引(从向量中提取元素)
1.根据元素位置
z <- seq(1,20,by = 2) #利用seq函数从1-20之间每隔2取一个数,并赋值给变量z
z[6] #提取z向量第6位元素
z[-6]#提取除了第6位元素之外的其他元素
z[2:6]#提取第2到6位元素
z[-(2:6)]提取除了第2-6位的其他元素
z[c(1,6)]提取第一位和第六位元素
2.根据具体值
z[z==17] #提取值为17的元素
z[z<10] #提取所有小于10的元素
z[z %in% c(1,2,3)]#提取向量z与向量c(1,2,3)的公有元素
数据框
在工作目录下新建一个lamyusam.txt文件,
这里以逗号作为分隔符
- 使用
read.table
函数获取数据框
a <- read.table(file="lamyusam.txt",sep=",",header=T)
参考://www.greatytc.com/p/90e1d430c9ef
- 设置行名和列名
a <- read.csv("lamyusam.txt")将数据框赋予变量a
colnames(a) #查看列名
rownames(a)#查看行名
colnames(a)[a]#默认行名就是行号
a <- readc.cs(file="lamyusam.txt",sep=", ",header = T,row.names=1)# 修改第一列为行名
- 数据框的导出
write.table(a,file=''lyc.txt",sep=",",quote=F)
在工作目录下创建了一个重新命名的修改过的数据框
- 变量保存与重新加载
save.image(file="bioinfoplanet.RData")#保存当前所有变量
save(a,file="test.RData")#保存其中一个变量
load("test.RData")#再次使用RData时的加载命令
+提取元素
#假设a是一个行列数分别不小于m和n的数据框
a[m,n]#提取第m行,第n列的元素
a[m,]#提取第m行的所有元素
a[,n]#提取第n列的所有元素
a[n] #也是提取第n列
a[m:n]#提取第m列到第n列的所有元素
a[c(m,n)]#提取第m列和第n列的元素
a$列名#提取该列名下的所有元素,局限在于只能提取一列
示例:
提取数据框中的变量
1.创建一个数据框
name <- c("A" ,"B","C","D","E","F","G","H")
age <- c(22,21,23,23,34,19,12,43)
weight <- c(70,55,68,76,72,54,45,70)
height <-c(178,176,177,182,171,165,150,180)
data1 <- data.frame(name,age,weight,height)
2.使用$
符
提取年龄,身高,体重信息,并绘制年龄变量与身高(height)和体重(weight)的散点图
plot(data1$age,data1$height)
plot(data1$age,data1$weight)
如图:
这个方法需要在每个变量前面输入
data.1$
,显然这看起来并不够简洁。
3.使用attach()
、detach()
函数
attch(data1) #将数据框添加到R的搜索环境中
plot(age,height)
plot(age,weight)
detach(data1)#将数据框从搜索环境中移除
在绘图效果一样的前提下,达到了简化代码。
但这种方法也具有一定的极限性,当数据框的列名与其他对象名称相同时,则会报错。
如图:
因此,使用
attch()
函数前必须确保没有同名对象。
3.使用with()
函数
with(data1,{
plot(age,height)
plot(age,weight)
})
在这种情况下,花括号
{}
仅仅针对数据框data1执行 ,不用担心对象名称冲突。