R-apply()函数

Content

  1. Summary
  2. apply()
  3. lapply() & sapply()
  4. tapply() & by() & aggregate()
  5. Examples

1. Summary

函数 对象 操作顺序 返回对象 描述
apply() matrix/dataframe/list 1:行;2:列 vector 用于行或列
lapply() list/dataframe list 用于列
sapply() list/dataframe vector/matrix 用于列
tapply() vector - array/matrix 分组,用于列
by() matrix/dataframe list 分组;变量间关系
aggregate() matrix/dataframe dataframe 分组;应用于所有列

2. apply()

apply()函数允许在矩阵的各行或各列上调用指定函数

apply(m, dimcode, f, fargs)

  • m 矩阵
  • dimcode 维度编号,对行或列应用函数。1代表行,2代表列
  • f 应用的函数
  • fargs 函数 f 的可选参数

e.g.

> z <- matrix(nrow = 3, ncol = 2, 1:6)
> z
     [,1] [,2]
[1,]    1    4
[2,]    2    5
[3,]    3    6

> f <- function(x) x/c(2, 8)
> y <- apply(z, 1, f)
> y
     [,1]  [,2] [,3]
[1,]  0.5 1.000 1.50
[2,]  0.5 0.625 0.75

函数 f 将矩阵 z 的元素按行的顺序除以向量(2, 8)(向量(2,8)只有两个元素,所以会循环使用)。返回的结果 y 是一个2行3列的矩阵,因为所调用的函数 f 每次返回的是一个包含2个元素的向量(因为矩阵 z 每行有2个元素),apply()的结果按列进行填充,所以只有2行。

  • 向待调用函数添加参数:

    e.g. 存在一个由0和1组成的矩阵,生成如下向量:取对应矩阵的每行,如果该行前d个元素中1较多,向量对应的元素就取1,反之取0。其中d是可以变的参数

    > x
         [,1] [,2] [,3] [,4] [,5]
    [1,]    1    0    1    1    0
    [2,]    1    1    1    1    0
    [3,]    1    0    0    1    1
    [4,]    0    1    1    1    0
    
    > copymaj <- function(rw,d){
    +   maj <- sum(rw[1:d])/d  #计算每行前d个元素的平均值
    +   ifelse(maj < 0.5, 0, 1)
    + }
    
    > apply(x, 1, copymaj, 3)
    [1] 1 1 0 1
    > apply(x, 1, copymaj, 2)
    [1] 1 1 1 1
    

    通过制定参数d的值,分别计算每行前3个和前2个元素中0和1的占比。

3. lapply() & sapply()

  • lapply

    代表 list apply 与矩阵的 apply 用法类似。对 列表(list)数据框(dataframe)中每个组件执行给定的函数,并返回列表

    > lapply(list(1:3, 25:29), median)
    [[1]]
    [1] 2
    
    [[2]]
    [1] 27
    
  • sapply

    lapply()类似,返回值为矩阵或向量

    > sapply(list(1:3, 25:29), median)
    [1]  2 27
    

    数据框(dataframe)是列表的特例,故lapply sapply 也可应用于数据框。

    对数据框应用 f() 函数,f() 会作用于数据框的每一列

4. tapply() & by() & aggregate()

tapply() 多用于处理因子(factor); by() 函数与 tapply() 类似,但可用于处理矩阵或数据框。

  • tapply(x, f, g)

x 向量,不能为数据框或矩阵;

f 因子或因子列表; g 函数

将 x 暂时分组,每组对应一个因子水平(或对应一组因子水平的组合),将 g() 函数应用到得到的子向量。结果返回表(table)。

> ages <- c(25, 26, 55, 37, 41, 42)
> affils <- c("R", "D", "D", "R", "U", "D")
> tapply(ages, affils, mean)
 D  R  U 
41 31 41 

若存在两个及以上因子:e.g. 以25岁为分界,计算男女员工的平均薪水:

> d <- data.frame(gender = c('M', 'M', 'F', 'M', 'F', 'F'),
+                 age = c(47, 59, 21, 32, 33, 24),
+                 income = c(55000, 88000, 32450, 76500, 123000, 45650))
> d$over25 <- ifelse(d$age > 25, 1, 0)
> d
  gender age income over25
1      M  47  55000      1
2      M  59  88000      1
3      F  21  32450      0
4      M  32  76500      1
5      F  33 123000      1
6      F  24  45650      0

> tapply(d$income, list(d$gender, d$over25), mean)
      0         1
F 39050 123000.00
M    NA  73166.67
  • by(x, f, g)

    x 指定数据,可为矩阵或数据框;f 因子或因子列表; g 函数

    by() 函数可对矩阵或数据框进行分组,并接收对象 x 的多个参数执行函数。结果返回列表(list)。

    e.g. 以数据框d为对象,按性别进行分组,计算收入与年龄间的回归关系:

    > by(d, d$gender, function(g) lm(g[, 3] ~ g[, 2]))
    d$gender: F
    
    Call:
    lm(formula = g[, 3] ~ g[, 2])
    
    Coefficients:
    (Intercept)       g[, 2]  
        -135450         7788  
    
    ------------------------------------------------------ 
    d$gender: M
    
    Call:
    lm(formula = g[, 3] ~ g[, 2])
    
    Coefficients:
    (Intercept)       g[, 2]  
        57079.2        349.7  
    

    同样,用 by() 函数也能完成如上以 tapply() 函数完成的例子:以25岁为分界,计算男女员工的平均薪水

    > by(d$income, list(d$gender, d$over25), mean)
    : F
    : 0
    [1] 39050
    ------------------------------------------------------ 
    : M
    : 0
    [1] NA
    ------------------------------------------------------ 
    : F
    : 1
    [1] 123000
    ------------------------------------------------------ 
    : M
    : 1
    [1] 73166.67
    # 与 tapply() 不同,by() 返回 list 
    
    • aggregate

      aggregate(x, f, g)

      x 列表或数据框对象; f 分组依据; g 作用函数

      aggregate() 可对分组中的每一个变量调用 tapply() 函数。e.g. 按性别分组计算平均年龄与平均工资:

      > d
        gender age income over25
      1      M  47  55000      1
      2      M  59  88000      1
      3      F  21  32450      0
      4      M  32  76500      1
      5      F  33 123000      1
      6      F  24  45650      0
      
      > aggregate(d[, c(2, 3)], list(d$gender), mean)
        Group.1 age   income
      1       F  26 67033.33
      2       M  46 73166.67
      
      # sapply() 与 tapply() 也能作用于对象的每个元素,但不能对对象进行分组
      > sapply(d[, c(2, 3)], mean)
         age income 
          36  70100 
      # 同样可用 apply() 函数
      > apply(d[, c(2, 3)], 2, mean)
         age income 
          36  70100 
      

5. Examples

使用 apply() 族函数对 dataframe d 进行如下操作:

  1. 添加分组:25岁以上为1,以下为0 ( apply()
  2. 计算员工的平均年龄;平均工资( sapply()/tapply()/apply()
  3. 以25岁为标准分组,计算各组的平均工资(tapply()
  4. 以25岁和性别为标准分组,计算各组的平均工资(tapply()
  5. 以性别为标准进行分组,计算收入与年龄间的回归关系(by()
  6. 以25岁和性别为标准分组,计算各组的平均工资和平均年龄(aggregate()
> d <- data.frame(gender = c('M', 'M', 'F', 'M', 'F', 'F'),
+                 age = c(47, 59, 21, 32, 33, 24),
+                 income = c(55000, 88000, 32450, 76500, 123000, 45650))
> d
  gender age income
1      M  47  55000
2      M  59  88000
3      F  21  32450
4      M  32  76500
5      F  33 123000
6      F  24  45650

# 1. 添加分组:25岁以上为1,以下为0 ( `apply()` )
> d$over25 <- apply(d[, 2, drop = F], 1, function(x) ifelse(x > 25, 1, 0))

> d
  gender age income over25
1      M  47  55000      1
2      M  59  88000      1
3      F  21  32450      0
4      M  32  76500      1
5      F  33 123000      1
6      F  24  45650      0
# 这里不使用 apply() 函数会更简洁:
# d$over25 <- ifelse(d$age > 25, 1, 0)

# 2. 计算员工的平均年龄;平均工资( `sapply()`/`tapply()`/`apply()` )
> lapply(d[, c(2, 3)], mean)
$age
[1] 36

$income
[1] 70100

> sapply(d[, c(2, 3)], mean)
   age income 
    36  70100 

> apply(d[, c(2, 3)], 2, mean)
   age income 
    36  70100 
                    
# 3. 以25岁为标准分组,计算各组的平均工资(`tapply()`)
> tapply(d$income, list(d$over25), mean)
    0     1 
39050 85625 
                    
# 4. 以25岁和性别为标准分组,计算各组的平均工资(`tapply()`)
> tapply(d[, 3], list(d$over25, d$gender), mean)
       F        M
0  39050       NA
1 123000 73166.67
                    
# 5. 以性别为标准进行分组,计算收入与年龄间的回归关系(`by()`)
> by(d, d$gender, function(x) lm(x[, 3] ~ x[, 2]))
d$gender: F

Call:
lm(formula = x[, 3] ~ x[, 2])

Coefficients:
(Intercept)       x[, 2]  
    -135450         7788  

------------------------------------------------------ 
d$gender: M

Call:
lm(formula = x[, 3] ~ x[, 2])

Coefficients:
(Intercept)       x[, 2]  
    57079.2        349.7  
                    
# 6. 以25岁和性别为标准分组,计算各组的平均工资和平均年龄(`aggregate()`)
> aggregate(d[, c(2, 3)], list(d$over25, d$gender), mean) 
  Group.1 Group.2  age    income
1       0       F 22.5  39050.00
2       1       F 33.0 123000.00
3       1       M 46.0  73166.67
                    
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,076评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,658评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,732评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,493评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,591评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,598评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,601评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,348评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,797评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,114评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,278评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,953评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,585评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,202评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,442评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,180评论 2 367
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,139评论 2 352