1.1 简介
维基百科上对于R的总结性描述:
R is an open source programming language and software environment for statistical computing and graphics that is supported by the R Foundation for Statistical Computing.The R language is widely used among statisticians and data miners for developing statistical software and data analysis.
Polls, surveys of data miners, and studies of scholarly literature databases show that R's popularity has increased substantially in recent years.
R is a GNU package.The source code for the R software environment is written primarily in C, Fortran, and R.
R is freely available under the GNU General Public License, and pre-compiled binary versions are provided for various operating systems. While R has a command line interface, there are several graphical front-ends available.
大致翻译一下,不是很严谨(请包涵):
R 是一种开源编程语言和软件环境,用于统计计算和绘图,由R 组织支持。R 语言被数据学家和数据挖掘者广泛的用于开发统计软件和数据分析。有关研究调查显示,R的受欢迎程度近年来持续上升。R是一个GNU 包。R 软件环境的源代码是用C,Fortran,和R写的。R是可以免费获取,在GNU条款下,并且其预编译的二进制版本提供给不同的操作系统。R不仅仅只有命令行交互页面,也有好几种图形化交互可以获得。
总结一下:R,与起源于贝尔实验室的S语言类似,是一种为统计计算和绘图而生的语言和环境,它是一套开源的数据分析解决方案,由一个庞大且活跃的全球性研究型社区维护。
R,有很多有点特性:免费、全面的统计研究平台、拥有顶尖水准的绘图功能、是一个可进行交互式数据分析和搜索的强大平台等等。
1.2 R的获取与安装
在官网:https://cran.r-project.org/可以免费获取各个系统的二进制版本,下载后安装即可。此外,一般我都会使用IDE,确实方便好用,我的系统是Linux-Ubuntu16.04,我可以装可视化的界面,所以也可以考虑从https://www.rstudio.com/下载对应版本的r-studio,具体方法详见:转录组入门(1):计算机及软件安装,里面有关于R安装的代码和R-Studio的代码,windows用户可能不需要代码,因为很简单,跟安装一般的软件一模一样,这里主要是Linux用户。
1.3 R的使用
R,是一种区分大小写的解释型语言,可以一次一条命令亦可以一次性执行在脚本文件中的一组命令。
交互期间,所有的数据对象都被保存在内存中。
R语句由函数和赋值构成——赋值符号为<- ,而不是=
例子:x <- rnorm(5);当然,也是允许使用‘=’ 来为对象赋值,但是不较少。并且R语言的赋值符号可以反转:rnorm(5) -> x
1.3.1 新手使用指南
在R中输入数据:根据给出的例子,理解R的赋值
#年龄向量数据赋值给age对象,体重向量数据赋值给weight对象
age <- c(1,3,5,2,11,9,3,9,12,3)
weight <- c(4.4,5.3,7.2,5.2,8.5,7.3,6.0,10.4,10.2,6.1)
#函数mean()求体重的平均值
mean(weight)
#函数sd()求体重的标准差
sd(weight)
#函数cor()体重和年龄的相关性
cor(age,weight)
#plot()可视化展示相关性
plot(age,weight)
1.3.2 获取帮助
一般通过“?+函数”的来查看某些函数的功能。此外通过help.start()来打开帮助文档的首页。
例如:?plot来查看plot函数的详细帮助文档
1.3.3 R工作空间
即当前R的工作环境,它存储着所有用户定义的对象(向量、矩阵、函数、数据框、列表)。在一个R会话结束时,你可以将当前工作空间保存到镜像中,并在下次启动时自动载入它。
命令可以交互地输入,使用上下方向键查看已输入命令的历史记录,非常的方便。
当前的工作目录是R用来读取文件和保存结果的默认目录,可以用getwd()来查看当前的工作目录,setwd()可以设定当前的工作目录。如果需要调用一个不在工作目录下的文件,则需在调用语句中写明完整的路径。
#设定工作目录
setwd("C:/myprojects/project1")
#将当前的选项设置情况显示出来
options()
#数字需要格式化,显示为小数点后三位有效数字的格式。
options(digits=3)
#创建一个包含20个平均分布随机变量的向量
x <- runif(20)
#生成了此数据的摘要统计量
summary(x)
#生成直方图
hist(x)
#退出
q()
当要结束R时,如果选择了y,命令的历史记录保存到.Rhistory文件中,工作空间保存到当前目录中的.RData文件中,会话结束,R程序退出。
R语言中,反斜杠\表示转义符,所以在写路径是一定要用正斜杠/。
1.4 包
包是函数、数据、预编译代码以一种定义完善的格式组成的集合。R安装完成后,电脑上会生成存储包的目录称为库(library)。
函数library()则可以显示库中有那些包,而.libPaths()能够显示库所在的位置。函数search()可以查看已经加载并且可用的包
- R包的安装:install.packages("包名"),以及installed.packages()查看已经安装包的相关信息,update.packages()来更新所有已经安装的包。
- 包的载入:library(包名)可以载入某个已经安装的包,这样才可以使用和调用它。
- 命令help(package="package_name")可以输出某个包的简短描述以及包中的函数名称和数据集名称的列表。
1.5 R语言编程中的常见错误
- 没有正确的区分大小写
- 忘记使用必要的引号
- 在函数调用时忘记使用括号
- 在Windows上,路径名中使用了\
- 使用了一个尚未载入包中的函数
1.6 示例实践
# 查看帮助文档
help.start()
# 安装vcd包
install.packages("vcd")
# 列出包中的函数和数据集
help(package="vcd")
# 载入包
library(vcd)
# 阅读包中数据集的描述
help(Arthritis)
Arthritis
example(Arthritis)
PS:这一部分内容实际上已经看了好几遍了,看这本书一直在前面几个章节,从来没有再向下了。其实我的R语言的入门是通过edx上的一门课程,那个时候真的是似懂非懂,没有完全明白,只是按着课程来,上完了完整的一门课,虽然不是特别了解,但是也让我对R语言有一个比较全面的入门,还是奠定了一定的基础,至少对R的基础语法结构,赋值方式,以及数据结构有了相当程度的了解,之后大概又有半年时间没有接触R语言了,现在又因为生物信息学,重新开始学习R,入门还是相当的快一些。