生信技能树数据挖掘课程学习笔记
二、数据类型和向量
数据类型
- 数值型numeric:1.3、2
- 字符型 character:“a”、‘nn’
- 逻辑型 logical :TRUE T、FALSE F、NA
判断数据类型的函数:class( ),将要判断的内容写在括号里,常见报错:引号、拼写错误、大小写
逻辑型数据
比较运算的结果是逻辑值 >, <, <=, >=, == , !=
逻辑运算 多个逻辑条件的连接与&、或|、非!
数据类型的判断和转换
is族函数,判断,返回值为TRUE或FALSE
is.numeric() 是否数值型数据
is.logical() 是否逻辑型数据
is.charactor() 是否字符型数据
as族函数实现数据类型之间的转换
as.numeric() 将其他数据类型转换为数值型
as.logical() 将其他数据类型转换为逻辑型
as.charactor() 将其他数据类型转换为字符型
多个数据如何组织?
数据结构: 向量 、数据框、矩阵、列表
数据框约等于“表格”。
向量则是数据框单独拿出的一列,视为一个整体。
一个向量只能有一种数据类型,可以有重复值。
2.1向量的生成
(1)用 c()逐一放到一起
(2)连续的数字用冒号”:”
(3)有重复的用rep(),有规律的序列用seq(),随机数用rnorm
(4)通过组合,产生更为复杂的向量。 paste0(rep("gene",times=3),1:3)
2.2 对单个向量进行的操作
(1)赋值给一个变量名 = 随意写法 <- 规范的赋值符号
(2)简单数学计算
(3)根据某条件进行判断,生成逻辑值向量
(4)初级统计 :max(x) 最大值、min(x) 最小值、mean(x) 均值、
median(x) 中位数、var(x) 方差、sd(x) 标准差、sum(x) 总和
2.3.对两个向量的操作
(1)逻辑比较,生成等长的逻辑向量
x = c(1,3,5,1)
y = c(3,2,5,6)
x == y
[1] FALSE FALSE TRUE FALSE
x %in% y #x的元素是否在y中
[1] FALSE TRUE TRUE FALSE
(2)数学计算 x+y [1] 4 5 10 7
(3)连接 paste(x,y,sep=":") [1] "1:3" "3:2" "5:5" "1:1"
(4)交集、并集、差集 intersect(x,y)
、union(x,y)
、setdiff(x,y) #x里面有的,y没有的
(5)x 和 y不一样长:理解一下循环补齐 x==y
短的循环补齐,与前后没有关系
paste0(rep(“gene”,3),1:3)
paste0(“gene”,1:3)
与向量x等长的逻辑值可以如何生成? A、比较运算 B、x %in% y C、用返回结果是逻辑值向量的函数
2.4.向量筛选(取子集)[]
根据逻辑值、根据位置
2.5 如何修改向量中的某个/某些元素
取子集+赋值
2.6 简单向量作图
k1 = rnorm(12)
k2 = rep(c("a","b","c","d"),each = 3)
plot(k1)
boxplot(k1~k2)
向量的几个进阶小问题
1.两个不同类型的向量合并在一起会怎么样?
2.如何将两个向量合到一起,组成一个长向量?
x=c(1,3,5) y=c(2,3,4) test=c(x,y) test ## [1] 1 3 5 2 3 4
3.如何在向量首/尾/中间某位置增加一个元素?
x=c(3,x) x=c(x,4)
如何在向量第n位增加一个元素?
n=3 x=c(1,3,5,8,6) x ## [1] 1 3 5 8 6 y=c(x[1:n-1],7,x[n:length(x)]) y ## [1] 1 3 7 5 8 6
写成函数
join <- function(x,n,y){ c(x[1:n-1],y,x[n:length(x)]) } x=c(1,3,5,8,6) join(x,3,7) ## [1] 1 3 7 5 8 6
4.如果向量x和y内容一致但顺序不一致,如何按照x的顺序排列y?
x=letters[1:5] y=letters[c(3,1,2,5,4)] match(x,y) ## [1] 2 3 1 5 4 y[match(x,y)] ## [1] "a" "b" "c" "d" "e"
向量排序-match、rank、order、sort、rev
- sort 从小到大
- rev 倒序排列
- rank 返回秩次
- order 从小到大的值的位置(最小的值在哪个位置,次小的又在哪个)
- match(x,y)按照x的顺序来排y