R语言的排序函数(order, sort, rank)及匹配函数(match,%in%)用法详解

一,排序函数

R语言中,和排序相关的常用函数有:order()sort()rank(),一般是对向量进行操作,也可以对数据框的列进行操作。
1. order(..., decreasing = FALSE)
“...” 中可以是一个向量(数值型,字符型,逻辑型,因子型均可),也可以是多个向量(长度必须相同
它返回的是排列后(默认是升序)的元素在该向量中所处的位置,即索引,所以返回的不是原来向量的那些数值,而是排序后那些数值所对应的位置。它在常在数据框中运用,可以根据某一列和某几列来调整数据框。
1.1 单个向量

> vec1 <- c(94,83,72,25,100,98,57,69,29,45)
> vec1
 [1]  94  83  72  25 100  98  57  69  29  45
> order(vec1) #生成的是索引
 [1]  4  9 10  7  8  3  2  1  6  5
> vec1[order(vec1)] #根据 order 函数生成的索引提取后就是排列后的元素,等同于 sort(vec1)
 [1]  25  29  45  57  69  72  83  94  98 100

1.2 多个向量(数据框的多列)

#创建一个向量
> df <- data.frame(var1 = c(1,1,3:1,1:4,3),
+                  var2 = c(9,9:1),
+                  var3 = c(2,1:9))
> df
   var1 var2 var3
1     1    9    2
2     1    9    1
3     3    8    2
4     2    7    3
5     1    6    4
6     1    5    5
7     2    4    6
8     3    3    7
9     4    2    8
10    3    1    9
#按列var1将排序
##先用order函数处理列var1
> order(df$var1)
 [1]  1  2  5  6  4  7  3  8 10  9
##然后用上面生成的索引来调整数据框 df
> df[order(df$var1),]   #注意是将生成的索引放在行的位置,另外注意的是此时的 df 只是调整后输出到console而已,要使得调整生效必须将调整后的df赋值给原来的 df 
   var1 var2 var3
1     1    9    2
2     1    9    1
5     1    6    4
6     1    5    5
4     2    7    3
7     2    4    6
3     3    8    2
8     3    3    7
10    3    1    9
9     4    2    8

上面最左边的一列数值(不是var1这一列)就是 order(df$var1) 生成的,列var1的顺序就是order后的,注意和前面df 的列var1进行比较,还有一点要牢记的就是这种在数据框里的调整,是整行变动(都按列var1来)。故而本质上,对于数据框而言,order函数出来的是原始数据框中的行号,行号顺序一变,意味着行号代表的整行跟着变
接着再按列var2排序(注意是在列var1已经排好的基础上再按列var2重新排序,即此时列var1里的非重复值的行顺序不会再变了,只有列var1里有重复值(数值相同的)的行才会变换,而且是按照列var2来变换,。如还要按其它列再排,以此类推):

> order(df$var1,df$var2)
 [1]  6  5  1  2  7  4 10  8  3  9
> df[order(df$var1,df$var2),]
   var1 var2 var3
6     1    5    5
5     1    6    4
1     1    9    2
2     1    9    1
7     2    4    6
4     2    7    3
10    3    1    9
8     3    3    7
3     3    8    2
9     4    2    8

最后再按列var3排序,此时只有列var2中有重复值的行(当然这时var1肯定也是重复的)才会变换------这里是含有9的那两行,并且是按照这些重复值对应到列var3的那些行的数值(数值1和2)来变的

> order(df$var1,df$var2,df$var3)
 [1]  6  5  2  1  7  4 10  8  3  9
> df[order(df$var1,df$var2,df$var3), ]   #order后的结果放在中括号内行的位置
   var1 var2 var3
6     1    5    5
5     1    6    4
2     1    9    1
1     1    9    2
7     2    4    6
4     2    7    3
10    3    1    9
8     3    3    7
3     3    8    2
9     4    2    8

总结提升,order()函数中,如果第一个向量(或者说是数据框里你想要根据它来调整的那一列)里没有重复值,那么按照后面的所有向量(不管有多少个)的重排都不会进行(或者说重排的结果不会变),order(vec1,vec2,vec3,...) 返回的行号及其顺序和 order(vec1) 的是一样。

> df <- data.frame(var1 = c(2,4,3,1,5,7,9,10,6,8),
+                  var2 = c(9,9:1),
+                  var3 = c(2,1:9))
> order(df$var1)
 [1]  4  1  3  2  5  9  6 10  7  8
> order(df$var1,df$var2)
 [1]  4  1  3  2  5  9  6 10  7  8
> order(df$var1,df$var2,df$var3)
 [1]  4  1  3  2  5  9  6 10  7  8

同理,也可以处理对应的行(比如矩阵或是数据框的行)

> ob1 <- c(1,1,3:1,1:4,3)
> ob1
 [1] 1 1 3 2 1 1 2 3 4 3
> ob2 <- c(9,9:1)
> ob2
 [1] 9 9 8 7 6 5 4 3 2 1
> ob3 <- c(2,1:9)
> ob3
 [1] 2 1 2 3 4 5 6 7 8 9
> rbind(ob1,ob2,ob3)
    [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
ob1    1    1    3    2    1    1    2    3    4     3
ob2    9    9    8    7    6    5    4    3    2     1
ob3    2    1    2    3    4    5    6    7    8     9
> class(rbind(ob1,ob2,ob3))
[1] "matrix" "array" 
> order(ob1,ob2,ob3)  #注意这里ob1,ob2,ob3对应的是三个向量
 [1]  6  5  2  1  7  4 10  8  3  9
> rbind(ob1,ob2,ob3)[ ,order(ob1,ob2,ob3)]  #order后的结果放在中括号内列的位置
    [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
ob1    1    1    1    1    2    2    3    3    3     4
ob2    5    6    9    9    4    7    1    3    8     2
ob3    5    4    1    2    6    3    9    7    2     8

1.3 factor(因子型向量)

> vec2 <- factor(x=c("B","A","A","C","B","A","C"),levels = c("A","B","C"),ordered = T)
> vec3 <- c(94,83,72,25,100,98,57)
> df1 <- data.frame(var1 = vec2,
+                   var2 = vec3)
> df1
  var1 var2
1    B   94
2    A   83
3    A   72
4    C   25
5    B  100
6    A   98
7    C   57
> order(df1$var1)
[1] 2 3 6 1 5 4 7
> df1[order(df1$var1),]
  var1 var2
2    A   83
3    A   72
6    A   98
1    B   94
5    B  100
4    C   25
7    C   57
> order(df1$var1,df1$var2)
[1] 3 2 6 1 5 4 7
> df1[order(df1$var1,df1$var2),]
  var1 var2
3    A   72
2    A   83
6    A   98
1    B   94
5    B  100
4    C   25
7    C   57

2. sort(x, decreasing = FALSE)
x 只能是一个向量(数值型,字符型,逻辑型,因子型均可)
返回的是排序后(默认是升序)的那个数值向量(还是那些数值,只不过是排序过了的

> vec1 <- c(94,83,72,25,100,98,57,69,29,45)
> vec1
 [1]  94  83  72  25 100  98  57  69  29  45
> sort(vec1)
 [1]  25  29  45  57  69  72  83  94  98 100
> df1
  var1 var2
1    B   94
2    A   83
3    A   72
4    C   25
5    B  100
6    A   98
7    C   57
> sort(df1$var1)
[1] A A A B B C C
Levels: A < B < C
> sort(df1$var1,df1$var2)   #只能是按照一个向量
Error in sort(df1$var1, df1$var2) : 
  'decreasing' must be a length-1 logical vector.
Did you intend to set 'partial'?

3. rank(x, na.last = TRUE)
求秩的函数,x 只能是
一个**向量(数值型,字符型,逻辑型), 该向量一般不会有重复值,返回的是该向量中对应元素的“排名”,即元素顺序它不会改变,只是告诉你每个元素在整个向量中的名次(如果要排序(默认是升序)的话)。

> vec1 <- c(94,83,72,25,100,98,57,69,29,45)
> vec1
 [1]  94  83  72  25 100  98  57  69  29  45
> rank(vec1)
 [1]  8  7  6  1 10  9  4  5  2  3

如果向量有重复值,出现的结果会有些不太好处理

> df <- data.frame(var1 = c(1,1,3:1,1:4,3),
+                  var2 = c(9,9:1),
+                  var3 = c(2,1:9))
> df
   var1 var2 var3
1     1    9    2
2     1    9    1
3     3    8    2
4     2    7    3
5     1    6    4
6     1    5    5
7     2    4    6
8     3    3    7
9     4    2    8
10    3    1    9
> rank(df$var1)   # var1有重复值
 [1]  2.5  2.5  8.0  5.5  2.5  2.5  5.5  8.0 10.0  8.0
> rank(df$var2)   # var2有重复值
 [1] 9.5 9.5 8.0 7.0 6.0 5.0 4.0 3.0 2.0 1.0
> vec <- c(94,83,72,25,72,98,57,69,29,45)
> vec
 [1] 94 83 72 25 72 98 57 69 29 45  # 有重复值
> rank(vec)
 [1]  9.0  8.0  6.5  1.0  6.5 10.0  4.0  5.0  2.0  3.0

二,match(x,y)函数

匹配两个向量,返回的是第一个向量 x中的各个元素在第二个向量 y中所匹配的元素的位置值(索引,下标值),即返回的是第二个向量的下标值组成的向量
注意事项:
1. 返回的下标值向量的长度与第一个向量相等,即 length(x) == length(match(x,y)) 为 TRUE。
2. 第一个向量可以是只有一个元素的向量。
3. 两个向量的长度不一定要相等。
4. 返回的是 x中每个元素在y中的位置,可用来提取y中的元素,没有匹配上的会返回 NA。
拓展用法:
y [match(x, y)]: x中 和y 相同的元素都是哪些,前提是x中的元素在y中都有(即x是y的子集),否则会返回 NA。(最好是用x[ x %in y]
y[-match(x, y)]: 找出 y里面有 x里面没有的数值,前提是x中的元素在y中都有(即x是y的子集),否则会报错。

> tmp <- LETTERS[1:26]
> tmp
 [1] "A" "B" "C" "D" "E" "F" "G" "H" "I" "J" "K" "L" "M" "N" "O" "P" "Q" "R" "S"
[20] "T" "U" "V" "W" "X" "Y" "Z"
> match("O",tmp)    # 第一个向量只有一个元素
[1] 15
> match(c("Z","D"),tmp)
[1] 26  4
> x <- c("TRUE","Z","D")
> x
[1] "TRUE" "Z"    "D"   
> y <- tmp
> y
 [1] "A" "B" "C" "D" "E" "F" "G" "H" "I" "J" "K" "L" "M" "N" "O" "P" "Q" "R" "S"
[20] "T" "U" "V" "W" "X" "Y" "Z"
> match(x,y)  #没有匹配上的会返回 NA
[1] NA 26  4
> y[match(x,y)]   #没有匹配上的会返回 NA
[1] NA  "Z" "D"
> y[-match(x,y)]  #会报错
Error in y[-match(x, y)] : only 0's may be mixed with negative subscripts

当两个向量类型不一样时, match函数会进行类型转换,然后再匹配。

> a <- c(1,TRUE,0)   # 逻辑值可以当成1或0,优先级:字符型>数值型>逻辑型
> a
[1] 1 1 0
> class(a)
[1] "numeric"
> b <- c(T,0,"1")  #字符型数据优先级最高
> b
[1] "TRUE" "0"    "1"   
> class(b)
[1] "character"
> match(a,b) 
[1] 3 3 2
> b[match(a,b)]
[1] "1" "1" "0"
> a1 <- c(F,TRUE)
> a1
[1] FALSE  TRUE
> class(a1)
[1] "logical"
> match(a,a1)
[1] 2 2 1
> a1[match(a,a1)]
[1]  TRUE  TRUE FALSE
> match(a1,a)
[1] 3 1
> a[match(a1,a)]
[1] 0 1

x %in% y
判断x中的元素是否都在y中,返回的是个长度和 x 一样的逻辑值向量,存在的话返回TRUE,否则返回FALSE。
sum(x %in% y): 统计 x 中有多少个元素在y中,或者说 x 和 y 有几个相同元素
x[x %in% y]: x中 和y 相同的元素都是哪些

> x <- c("A","Z","D","ZD")
> y <- LETTERS[1:26]
> x %in% y
[1]  TRUE  TRUE  TRUE FALSE
> sum(x %in% y)   # 统计 x 中有多少个元素在y中,或者说 x 和 y 有几个相同元素
[1] 3    
> x[x %in% y]  # x 和 y中有几个相同元素,都是哪些元素。
[1] "A" "Z" "D" 

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,884评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,755评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,369评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,799评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,910评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,096评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,159评论 3 411
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,917评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,360评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,673评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,814评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,509评论 4 334
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,156评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,882评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,123评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,641评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,728评论 2 351

推荐阅读更多精彩内容