注 <-
对应R, =
对应Python
- R语言基本数据结构是向量,支持向量化操作。Python不支持向量化
- R和Python都是面向对象编程的语言。所以不同的类都各自的方法
R的向量矩阵数组与Python的列表
R语言的核心是向量,向量内的数据类型必须相同,也就是mode
只会输出一个结果,如果向量里存在不同数据类型,那么R会以数据损失最小的转换方法让最后结果保持一致。
比如说:
a <- c(1,2,3,4,5)
b <- c(1,2,'3',4, True)
a和b的mode肯定是不同,mode(a)
的结果是numeric, mode(b)
结果会是character.
R语言里的所有函数就支持向量化操作, 比如说数学运算符和各类函数
a + 1
[1] 2 3 4 5
R语言里面是没有标量的,标量被R当作一个元素的向量。Python里面的数据类型是可以单个存放的。所以从输出结果长的像角度上,Python和R语言的向量看起来相同的数据结构应该是列表(list)。list在Python里面序列类型,同类型的还有元祖(tuple)和范围(range)
a = [1,2,3,4,'b']
不过只是在结构上看起来相似,Python不支持向量化操作,所以企图直接a+1
是会出错的,即便里面都是数值型数据
a = [1,2,3,4,5]
a + 1
# TypeError: can only concatenate list (not "int") to list
a + ['b','c']
# [1, 2, 3, 4, 5, 'b', 'c']
就我目前的眼界,能想到实现R语言那样的整体运算,在Python里面就是列表推导式了。
[i + 2 for i in a]
既然长的像,所以就要看看有哪些运算是共同的。
取值
虽然Python和R都可以用[]
从数据结构中提取数据,但还是有很大区别。最最要的一个区别就是Python从0开始下标, R从1开始下标。
一维数据
提取一元数据时,如果只提取一个数据两者差不多是相同的;
# 提取第一个元素
## R
a <- c(1,2,3,4,5,6)
a[1]
## Python
a = [1,2,3,4,5,6]
a[0]
如果要提取多个数据就存在差异了。比如说Python就只能选取连续的几个值,要么分别取值。R语言可以在[]
中提供一组包含位置信息的向量。R语言的[]
可以存放Boolean向量,Python里面就需要用列表推导式,循环进行逻辑比较。
# R
a[c(1,3)]
a[which(a > 2)]
a[ a > 1 & a < 4]
# Python
a[1];a[3]
[i for i in a if i >1 and i <4]
但是一般而言,我们也不会专门选择几个数值,基本都是根据逻辑判断结果选择一组符合要求的数据。
多维数据
R语言的矩阵和数组结构有专门的结构,matrix和array,但是基础还是向量。在Python里则是通过列表嵌套的方式实现。
# R matrix 看作三个向量按列排
mdat <- matrix(c(1,2,3, 11,12,13), nrow = 2, ncol = 3, byrow = TRUE,
dimnames = list(c("row1", "row2"),
c("C.1", "C.2", "C.3")))
# Python matrix
a= [[1,2,3],[4,5,6]]
# R 三维数组
d3 <- array(1:24, c(2,3,4))
# Python三维数组
d3 = [[[1,3,5],[2,4,6]],[[7,9,11],[8,10,12]],[[19,21,23],[20,22,24]]]
多维数据的提取和赋值也是有不大不小的区别,一个是[x,y,z]
,一个是[z][y][x]
。R从里到外,Python从外到里(我是这样理解的)。尝试分别从Pyhon和R里面提取同一个数据
# R
d3[1,2,2]
d3[1,2,2] <- 0
# Python
d3[1][0][1]
d3[1][0][1] <- 0
如果想提取全部第二维度的数据
# R
d3[,,2]
# Python
d3[1]
函数
在函数用法上,两者的差异就真的是很大了。结果就是有段时间只用R,然后按照R的习惯用Python,基本上都出error。比如说对刚才的三维数据求和
# R
sum(d3)
# Ptyhon
sum(d3)
TypeError: unsupported operand type(s) for +: 'int' and 'list'
原因是R里面是向量化操作,直接对所有元素进行运算。在Python里面,sum函数会对list里面的各个元素进行求和, 而d3的内一层还是一个列表,所以就会出错了。
最直观的方法就是看看R和Python的多维数组的元素数量:
# R
length(d3)
24
# Python
len(d3); d3.__len__()
3
因此R和Python的函数只能在一维上存在相似性,超过一维基本用一个错一个。
Python作为一门面向对象编程语言,对于每一种列都有专门的方法,这个方法可以用dir()
进行查看。
在R里面dir()是用来查看当前目录下的文件。
dir(list)
['__add__', '__class__','__contains__',
'__delattr__', '__delitem__', '__dir__', '__doc__',
'__eq__', '__format__', '__ge__', '__getattribute__',
'__getitem__', '__gt__', '__hash__', '__iadd__',
'__imul__', '__init__', '__init_subclass__',
'__iter__', '__le__', '__len__', '__lt__',
'__mul__', '__ne__', '__new__', '__reduce__',
'__reduce_ex__', '__repr__', '__reversed__', '__rmul__',
'__setattr__', '__setitem__', '__sizeof__', '__str__',
'__subclasshook__', 'append', 'clear',
'copy', 'count', 'extend',
'index', 'insert', 'pop', 'remove', 'reverse', 'sort']
所以Python里面经常会遇到d3.pop()
这种调用类方法的形式。在R语言里则是函数的多态性,prin是其中一个多态性函数,它提供了一个接口,根据输入数据类型调用相应的函数
# R
print
# function (x, ...)
# UseMethod("print")
# <bytecode: 0x000000001456fbf0>
# <environment: namespace:base>
可以用methods(print)
看具体有那些具体函数。