Python与R的异同(二):字符串操作

字符串操作的差异

R本身设计初衷主要是用来处理矩阵运算这类数学问题,因此在字符串操作方面比较薄弱。Python并不是专门用来进行数学计算的,没有偏向性,字符串操作优良。但是多年前听说还是比不上Perl,不知道现在怎么样了。

构建字符串

R的字符串无论数量多少都是存放在向量数据结构中,复杂一点的存放就是array, matrix, data.frame, list;Python有专门的字符串类型数据结构,如果需要存放多个字符串,则可以用序列类型,如list(列表), dict(字典), tuple(元组),set(集合)。

下面是手动创建字符串的一些操作,基本上R就比Python少了一个'''操作而已,这个在Python里是用于赋值多行字符串的。R连多行注释都没有,这个也能理解吧

# R
s <- 'abc' ; s <- "abc";  s<- "s'b" ; s <- 's\'b'
ss <- c('abc','efg')
ss_matrix <- matrix(c('ab','bc','cd','de'),nrow=2)
ss_list <- list('a','b','c','d')
# Python
ss = 'abc' ; ss = "abc" ; ss = "What's your name"; ss = 'What\'s your name' ; ss ='''What's your name; "sb?" '''
ss_list = ['abc','edf']
ss_dict= {'a':'b', 'c':'d'}
ss_tuple = ('a','b')

如果是从文本里面读取数据的话,Python是先用open定义一个文件对象,由于文件对象是可迭代的,所以最后可以保存成序列类型的数据结构,如列表

[line for line open('file.txt', 'r')]
with open('file.txt', 'r') as f:
    strings = f.readlines()

R原本是用来进行数据分析的,所以用的是read.table类函数读取多列存放的数据,成为后续操作会用到的data.frame对象。当然对于普通的文本文件,与Python的open和readlines对应的是filereadLines,注意这里的Lines,打错就是其他函数了。

# 类似open
fileA <- file("text.txt", "r")
# 类似python的readline和readlines
# 可以指定固定行, readline(fileA, n=1), 默认全部读取
text <- readLines(fileA)
length(text)

这里的text的每一个元素对应为text.txt的行数据。
可以练习一下读取fasta文件,并保存为R的list格式。

函数

R语言本身的目的不是做文本处理的,基础功能比较薄弱是可以理解的。基础函数大致是如下几个:
nchar(): 函数返回字符串长度
paste(), paste0(): 连接若干个字符串
sprintf():格式化输出
toupper(): 大写转换
tolower(): 小写转换
substr(): 提取或替换一个字符串向量的子串
正则表达式相关的函数,如grep, grepl, regexpr, gregexpr, sub, gsub, strsplit.

后来Hadley大神看不下去,写了一个stringr用来强化R语言字符串操作,效果拔群。
stringr函数主要分为四类:

  1. 字符操作:操作字符向量中的单个字符 str_length, str_sub, str_dup
  2. 添加,移除和操作空白符 str_pad, str_trim, str_wrap
  3. 大小写转换处理 str_to_lower, str_to_upper, str_to_title
  4. 模式匹配函数 str_detect, str_subset, str_count, str_locate, str_locate_all, str_match, str_match_all, str_replace, str_replace_all, str_split_fix, str_split, str_extract, str_extract_all

Python中字符串数据结构本身就有许多的方法,而且还有一些包提供其他功能,比如说re提供了正则表达式功能,string扩展了更多功能。
用dir看下有哪些字符串类型函数

dir(str)
['__add__', '__class__', '__contains__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__getnewargs__', '__gt__', '__hash__', '__init__', '__iter__', '__le__', '__len__', '__lt__', '__mod__', '__mul__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__rmod__', '__rmul__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', 'capitalize', 'casefold', 'center', 'count', 'encode', 'endswith', 'expandtabs', 'find', 'format', 'format_map', 'index', 'isalnum', 'isalpha', 'isdecimal', 'isdigit', 'isidentifier', 'islower', 'isnumeric', 'isprintable', 'isspace', 'istitle', 'isupper', 'join', 'ljust', 'lower', 'lstrip', 'maketrans', 'partition', 'replace', 'rfind', 'rindex', 'rjust', 'rpartition', 'rsplit', 'rstrip', 'split', 'splitlines', 'startswith', 'strip', 'swapcase', 'title', 'translate', 'upper', 'zfill']

对于一个的字符单位的操作而言,R和Python基本上都有一一对应的函数,比如说R的str_to lower(), str_to_upper(), str_to_title()对应就是python的lower(), upper(), title(),R的模式匹配函数对应的是Python的re模块。
然对于多个字符串组成的整体而言,需要记住R是向量化操作,相对应的是Python必须要用列表推导式,举个例子就是

# R
library(stringr)
ss <- c('abc', 'efg')
str_to_upper(ss)
# Python
ss = ['abc', 'efg']
[string.upper() for string in ss]
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,123评论 6 490
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,031评论 2 384
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 156,723评论 0 345
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,357评论 1 283
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,412评论 5 384
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,760评论 1 289
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,904评论 3 405
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,672评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,118评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,456评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,599评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,264评论 4 328
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,857评论 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,731评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,956评论 1 264
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,286评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,465评论 2 348

推荐阅读更多精彩内容

  • 在挖掘分析的过程当中对字符串的处理是极为重要的,且出现也较为频繁,R语言作为当前最为流行的开源数据分析和可视化平台...
    果果哥哥BBQ阅读 5,797评论 0 8
  • R语言主要擅长于数值向量和矩阵操作,但是让他去做字符串操作也可以。 字符串的基本操作类型: 查找和替换 大小写转换...
    xuzhougeng阅读 5,895评论 1 7
  • 外面的雨淅淅沥沥,不适合出门,最适合遐思和想念。妈妈才打个电话说衡阳大雨倾盆,并问我昨天去博物馆好不好玩。我才忘记...
    嬛姝阅读 341评论 0 1
  •     每次修改系统环境变量以后需要重启explorer.exe进程,使之生效,但是在安装python的时候,发现...
    laravel阅读 777评论 0 0
  • 一、 下面的代码输出多少?修改代码让fnArri 输出 i。使用两种以上的方法 方法1 方法2 方法3 二、 封装...
    崔敏嫣阅读 293评论 0 0