「生信」R for Beginners——R入门笔记

目录

  • 首先
  • 导言
  • 基本原理与概念
    基本原理
    赋值分配(assign)等操作
    在线帮助
  • R的数据操作
    对象
    在文件中读写数据
    存储数据
    生成数据
  1. 规则序列
  2. 随机序列
    使用对象
  3. 创建对象
  4. 对象的类型及转换
  5. 运算符
  6. 访问一个对象的数值: 下标系统
  7. 访问对象的名称
  8. 数据编辑器
  9. 数学运算和一些简单的函数
  10. 矩阵计算
  • R绘图
    管理绘图
    绘图函数
    低级绘图命令
    绘图参数
    一个实例
    grid和lattice包
  • R的统计分析
    关于方差分析的一个简单例子
    公式
    泛型函数
  • R编程实践
    循环和向量化
    用R写程序
    编写自己的函数

首先

  • 基础部分对重点知识做了摘抄
  • 绘图部分列出了提纲
  • 关于统计,函数及其参数还需要慢慢积累总结
  • R for Beginners 电子版

导言[1]

  • R的开发及由来. 贝尔实验室&S语言
  • R的编码及安装. 基于C及Fortran编写&Comprehensive R Archive Network(CRAN)有详细安装及包使用指南
  • 强大的统计分析作图功能.
  • 灵活性. 作为计算机语言的一种, 与语言编写的窗口化工具相比, 其可以使用各种编程语句, 切分提取数据, 满足更多的个性化需求

基本原理与概念

基本原理

  • R是解释性语言, 而非编译语言. python同样是, 而C&Foortan&Pascal就是编译语言,运行效率高很多
  • 所有变量, 数据, 函数及结果都已对象(object)的形式存在计算机的内存中, 并冠有相应的名称
  • 基本工作原理: 用户通过键鼠输入调用库(library)中的函数→计算机根据指令进行诸如读取, 计算, 显示, 网络调用等流程→将结果储存在对象(object)中
  • 对象的名称不能以数字开头, 大小写代表不同的对象

赋值分配(assign)等操作

  • 赋值. 三者有差别

    1. ->
    2. <-
    3. =
  • 显示内存中所有对象

    1. ls() #只输出对象名称
    2. ls(pat="X") #指定显示某个对象及其赋值, pat即pattern
    3. ls(pat="^X") #正则表达式
    4. ls.str() #输出对象名称+赋值

在线帮助

  • 最常用

    1. ?ls()
    2. help(ls)
  • 未导入内存的

    help("bs",package="splines")

  • 搜索某一变量

    help.search("tree")

R的数据操作

对象

  • 对象的两个内在属性: 类型(mode()函数)和长度(length()函数)

    类型分为: 数字型, 字符型, 复数型和逻辑性(TRUE&FALSE)

    长度是对元素中数目的统计

  • 字符串引用单引号双引号问题, 与perl和python相似

  • Inf-Inf表示±∞, NaN表示非数字

在文件中读写数据

  • 首先通过getwd("")确定工作目录

  • mydata <- read.table("文件"), 可用制表符分隔的txt文件, 以下为缺省值

    read.table(file, header = FALSE, sep = "", quote = "\"’", dec = ".", row.names, col.names, as.is = FALSE, na.strings = "NA", colClasses = NA, nrows = -1, skip = 0, check.names = TRUE, fill = !blank.lines.skip,strip.white = FALSE, blank.lines.skip = TRUE, comment.char = "#")

  • mydata <- scan("文件", what=list("",0,0)), what后表示第一个为字符变量, 后两个为数值变量, 忽略what则创建数值变量

    scan(file = "", what = double(0), nmax = -1, n = -1, sep = "", quote = if (sep=="\n") "" else "’\"", dec = ".", skip = 0, nlines = 0, na.strings = "NA", flush = FALSE, fill = FALSE, strip.white = FALSE, quiet = FALSE, blank.lines.skip = TRUE, multi.line = TRUE, comment.char = "")

  • mydata <- read.fwf("文件",widths=c(数字,数字,数字...)), widths表示读取每个字段的宽度, 将一整行字符按要求拆分成相应个数的相应长度, 其余选项与read.table()相同

  • 补充:

    1. read.csv(file, header = TRUE, sep = ",", quote="\"", dec=".", fill = TRUE, ...)
    2. read.csv2(file, header = TRUE, sep = ";", quote="\"", dec=",", fill = TRUE, ...)
    3. read.delim(file, header = TRUE, sep = "\t", quote="\"", dec=".", fill = TRUE, ...)
    4. read.delim2(file, header = TRUE, sep = "\t", quote="\"", dec=",", fill = TRUE, ...)

存储数据

  • write.table()

    write.table(x, file = "", append = FALSE, quote = TRUE, sep = " ", eol = "\n", na = "NA", dec = ".", row.names = TRUE, col.names = TRUE, qmethod = c("escape", "double"))

  • save(x,y,z,file="xyz.RData")&load("xyz.RData")

  • save.image()

生成数据

上部分介绍了自动读取和输出, 以下列举的均为手动生成数据用到的函数

规则序列

  • 函数中变量的赋值与python相似,ex.

    seq(1,9,5)&seq(length=9, from=1,to=5), 完全相同

  • :优先级很高,ex.

    1:10-1&1:(10-1)

  • 创建数据框

    expand.grid(h=c(60,80),w=c(100,300),sex=c("male","female"))

       h   w    sex
    1 60 100   male
    2 80 100   male
    3 60 300   male
    4 80 300   male
    5 60 100 female
    6 80 100 female
    7 60 300 female
    8 80 300 female
    

    注: 数据行数等于 2✖️2✖️2, 内部可以加入seq()等其他函数

  • 几个常用函数:

    1. seq(x,x,x)
    2. scan()
    3. rep(x,x)
    4. sequence(x:x)&sequence(c(x,x,x,...))
    5. gl(x,x,label=c("xx","xx"...),length=x)

随机序列

  • 在统计学中, 产生随机序列特别重要, 表中介绍了很多函数
  • 函数大多命名为rXXX(), 可以通过?rXXX()查看说明, 会发现还有d/p/q...XXX()多中使用方法, 区别在于缺省值不同
  • 复习过统计学相关知识后在回头总结

使用对象

创建对象

  • 向量
  • 因子
  • 矩阵
  • 数据框
  • 列表
  • 时间序列
  • 表达式

对象的类型及转换

格式转换有很多限制条件, 先记基础知识吧

  • 转数据型

    as.numeric()

  • 转逻辑型

    as.logical()

  • 转字符型

    as.character()

运算符

包括三种运算符

  • 数学运算

    +
    -
    *
    /
    ^
    %%  #模
    %/% #整除
    
  • 比较运算符

    <
    >
    <=
    >=
    ==
    !=
    
  • 逻辑运算符

    !   #逻辑非
    &   #逻辑与
    && #同上
    |   #逻辑或
    ||  #同上
    xor(x,y)  #异或
    

    注:

    1. 比较运算符作用在两个被比较对象的每个元素上, ex. x >- 1:3; y >- 1:3 x==y

    2. &和|作用在对象中的每一个元素上并且返回和比较次数相等长度的逻辑值; &&和||只作用在对象的第一个元素上

  • 比较函数

    identical(x,y)

    all.equal(x,y)

访问一个对象的数值: 下标系统

与python和perl极为相似, 只是略过复杂

  • 第一个元素从x[1]开始
  • 方括号内可以一次性取多个数值, 也可以嵌合其他函数
  • 对矩阵取值时, 缺省返回维数尽可能低的对象, 可以通过x[,2, drop = FALSE]返回矩阵
  • 方括号中-表示不显示某值, 同样可以嵌合其他函数
  • 我的理解: 嵌合逻辑下标(TRUE/FALSE)时, 对象中每个元素通过1/0取舍
  • [[]]方括号套方括号

访问对象的名称

  • names是一个和对象有同样长度的向量并且可以通过函数names来访问

  • 一般情况下, 对象是没有names的, ex. names(x)

  • 对象赋予names, ex. names(x) <- c("a","b", "c"...) #赋予名称的数量要≤对象中元素的数目

  • 对于矩阵

    行names rownames(x)

    列namescolnames(x)

    返回全部names列表dimnames(x)

数据编辑器

  • data.entry(x)
  • High Sierra 10.13.6之后不再随附X11, 但可以手动下载安装XQuartz
  • 可能需要重启才能正产使用

数学运算和一些简单的函数

  • 相同长度的向量运算, 逐个元素运算

  • 不同长度的向量运算, 最短的元素会重复使用

    x <- 1:4
    y <- 1:2
    z <- x + y
    
  • 不同长度, 长度也不成倍数时, 运行会有警告信息, 仍然会将最短的元素重复使用

  • 常用函数及部分统计函数见原文P33, 34, 太TM多了...

矩阵计算

  • 矩阵相乘计算规则

  • 上下合并矩阵

    rbind(m1,m2)

  • 左右合并矩阵

    cbind(m1,m2)

  • 两矩阵相乘

    m1 %*% m2

  • 提取/修整/创建对角线

    提取: diag(m1)

    修整: diag(m1) <- 10

    创建:

    v <- c(10,20,30)
    diag(v)
    diag(1.2, nr = 3, nc = 5)
    

R绘图

以下三个章节概括了R的主要内容, 但要熟练使用R, 需要

  • 掌握接触的统计知识
  • 熟悉尽可能多的函数及其参数
  • 实践出真知

因为统计知识比较匮乏, 以下记录只是为了形成一个框架

管理绘图

  • Rstudio集成了各种工具, 不需要通过x11()开启绘图窗口

  • 图形分割(也不知道放到这有啥特殊的意义)

    1. 构建矩阵matrix()

    2. layout(矩阵)

    3. 展示分隔结果layout.show()

    4. ex.

      m <- matrix(1:4, 2, 2)
      layout(m, widths=c(1, 3), heights=c(3, 1))
      layout.show(4)
      

绘图函数

表中列举了常用的基础绘图函数, 第二遍每个都用一下

低级绘图命令

挺详细的, 诸如如何画水平线,长方形, 添加标题等等表中都有介绍, 后重点对插入公式做了重点介绍

绘图参数

上两节介绍的是常用函数, 这节讲的是函数中常用的参数, 诸如字体大小,对齐方式,背景颜色,实线虚线等等表中都有介绍, 后重点对标记符号的种类做了列举

一个实例

  • 基础

    x <- rnorm(10)
    y <- rnorm(10)
    plot(x,y)
    
  • 调整参数(低级)

    plot(x, y, xlab="Ten random values", ylab="Ten other values", xlim=c(-2, 2), ylim=c(-2, 2), pch=22, col="red", bg="yellow", bty="l", tcl=0.4, main="How to customize a plot with R", las=1, cex=1.5)
    
  • 调整参数(初级)

    opar <- par()
    par(bg="lightyellow", col.axis="blue", mar=c(4, 4, 2.5, 0.25))
    plot(x, y, xlab="Ten random values", ylab="Ten other values", xlim=c(-2, 2), ylim=c(-2, 2), pch=22, col="red", bg="yellow", bty="l", tcl=-.25, las=1, cex=1.5)
    title("How to customize a plot with R (bis)", font.main=3, adj=1)
    par(opar)
    

    par()存储有全部缺省值, 思路: 保存缺省值→修改缺省值→绘图→通过基础绘图命令添加title→还原回之前的缺省值

  • 调整参数(高级)—全部调整了par()的参数

    opar <- par()
    par(bg="lightgray", mar=c(2.5, 1.5, 2.5, 0.25))
    plot(x, y, type="n", xlab="", ylab="", xlim=c(-2, 2), ylim=c(-2, 2), xaxt="n", yaxt="n")
    rect(-3, -3, 3, 3, col="cornsilk")
    points(x, y, pch=10, col="red", cex=2)
    axis(side=1, c(-2, 0, 2), tcl=-0.2, labels=FALSE)
    axis(side=2, -1:1, tcl=-0.2, labels=FALSE)
    title("How to customize a plot with R (ter)",
    font.main=4, adj=1, cex.main=1)
    mtext("Ten random values", side=1, line=1, at=1, cex=0.9, font=3)
    mtext("Ten other values", line=0.5, at=-1.8, cex=0.9, font=3)
    mtext(c(-2, 0, 2), side=1, las=1, at=c(-2, 0, 2), line=0.3, col="blue", cex=0.9)
    mtext(-1:1, side=2, las=1, at=-1:1, line=0.2, col="blue", cex=0.9)
    par(opar)
    

grid和lattice包

R的统计分析

前三小节涉及很多统计分析的函数

关于方差分析的一个简单例子

公式

泛型函数

  • 常用简单R包描述
  • R包几种不同的安装方法

R编程实践

对于本章所讲的内容, 我的理解是, R包括for,if等基础语句, 但所谓的程序和函数, 是上几章作图过程中所调用的内容, 导入数据到生成统计结果的代码即是所谓的R程序

循环和向量化

用R写程序

编写自己的函数

相比python 和perl 真的死板一些, 有很多要记住并熟练使用的参数和模型


  1. 来源于2005重新修订的第二版, 由华东师范大学汤银才老师团队翻译整理

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,922评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,591评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,546评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,467评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,553评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,580评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,588评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,334评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,780评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,092评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,270评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,925评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,573评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,194评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,437评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,154评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,127评论 2 352

推荐阅读更多精彩内容