grep与正则表达式

上回说到grep与正则表达式关系紧密,今天来详细的谈一谈。

1. 简介

正则表达式,让人不明觉厉,望而却步。但实际上它就相当于数学里的九九乘法表,背会很难,之后做乘法就很快了。

正则表达式也是这样的工具,看起来很难,背会了之后大有帮助。乘法表建立了乘法的基础规则,而正则表达式建立了一系列语法的规则。它是用来匹配符合某种语法的字符串,从而可以对这些筛选出来的字符串进行处理。

所以天然的,在Linux中,grep命令经常与正则表达式结合起来执行一些模糊查询或者指向性查询。

比如一些常见的:

ll | grep -E "*.txt"  
    #列出当前路径下的txt文件
    #-E选项表示使用扩展的正则表达式,grep -E相当于egrep
    #"*"就是一种正则表达式的元字符

【注】其实直接使用ll *.txt也能得到相同结果,这是因为Linux直接把*解释为任意的字符串。

二、正则表达式基础

正则表达式是如何建立语法规则的呢?它定义了一系列的元字符(像"*"这样的),通过元字符和其他字符的组合来表达出一种规则,对待匹配文本进行筛选,只有符合这种规则的文本才能被保留下来。


筛选过程
  • 基本正则表达式所定义的元字符
元字符 作用 例子 例子说明
^ 行首定位符 ^ty 匹配"t"开头,后面紧跟一个"y"的字符串
$ 行尾定位符 txt$ 匹配以"t"结尾,前面两个字符是"t""x"的字符串
. 单个字符匹配 s. 匹配"s"后面有一个字符的字符串
* 限定符 s* "*"表示匹配其前导字符若干次,包括0次。这里是匹配有若干个"s"的字符串
[] 字符集匹配 [abc] 表示匹配"a","b"或"c"的字符串
[^] 字符集不匹配 [^abc 表示不匹配"a","b","c"里的任意字符
() 子表达式 ([0-9]{2})? 匹配两个或0个数字
x{m,n} 区间表达式 a{2,3} 表示"a"重复2~3次
  • 扩展正则表达式的元字符
元字符 作用 例子 例子说明
+ 限定符,同* s+ "+"表示匹配其前导字符若干次,至少1次
? 限定符 ss? "?"表示前面的字符可以重复0或1次。这里是一个"s"后面可能再跟一个"s"
  • POSIX字符集

不同国家的字符编码很有可能不同,例如:
LANG=C:A B C D ... Z a b c d ...z
LANG=zh_TW:a A b B c C d D ... z Z

当采用第二种编码时,[A-Z]之间会包括小写字母b-z。所以为了避免这种问题,可以使用POSIX字符集来使用特定的字符类。

字符类 说明
[:alnum:] 匹配任意一个字母或者数字,等价于A-Za-z0-9
[:alpha:] 匹配任意一个字母,等价于A-Za-z
[:digit:] 匹配任意一个数字,等价于0-9
[:lower:] 匹配小写字母,等价于a-z
[:upper:] 匹配大写字母,等价于A-Z
[:graph:] 匹配一个看的见的字符,不包括空白字符
[:print:] 匹配一个可以打印的字符
[:blank:] 匹配空格和tab
[:space:] 匹配一个空白字符,包括空格、tab、换行、分页符<
[:punct:] 匹配一个标点符号
[:xdigit:] 匹配一个十六进制数字,即0-9,a-f,A-F

【注意】这些字符类要放在方括号中,才能表示字符集匹配:[[:alnum:]] = [A-Za-z0-9]

三、grep与正则表达式的例子

(1)简单匹配

#匹配空行
egrep "^$" testfile    

#匹配所有英文字符
egrep "[a-zA-Z]" testfile

#匹配tast或者test
egrep "t[ae]st" testfile
#匹配以字符s开头,紧跟若干b的文件名
ll | egrep "^sb*"

#匹配txt文件
ll | egrep "\.txt$"      #这里的"."需要进行转义

(2)复杂一些的匹配

#匹配QQ号码,第一位不能是0,5位以上的数字。
egrep "[1-9][0-9]{4,}" testfile

#匹配IP地址,共4组数字,用"."隔开
egrep "^([0-9]{1,2}|1[0-9]{2}|2[0-4][0-9]|25[0-5])\.   #第一组数字
        ([0-9]{1,2}|1[0-9]{2}|2[0-4][0-9]|25[0-5])\.   #第二组数字
        ([0-9]{1,2}|1[0-9]{2}|2[0-4][0-9]|25[0-5])\.   #第三组数字
        ([0-9]{1,2}|1[0-9]{2}|2[0-4][0-9]|25[0-5])$"   #第四组数字
        testfile 

#匹配邮箱地址
egrep "^[a-z0-9]([a-z0-9]*[-_]?[a-z0-9]+)*@
       ([a-z0-9]*[-_]?[a-z0-9]+)+[.][a-z]{2,3}([.][a-z]{2})?$"

此处注意:区间表达式{}应该写成"\{\}"表示转义,实验中发现加不加"\"转义都能得出正确结果,但是直接使用基本正则表达式(grep不加-E选项)则不行。所以应该是扩展正则表达式中取消了这个需要转义字符的地方。

四、其他

琐碎的片段:

  1. 当需要将元字符当作普通字符匹配的时候,需要转移字符"\",但是当元字符位于"[]"中时,除了"-"或者"^"极少数元字符以外,其它的自动转义为普通字符。

  2. 正则表达式从左到右计算,遵循一定的优先级:转义符"\" > 方括号"[]" > 分组 "()" > 限定符"*,+,?,{}" > 普通字符 > 定位符"^,$" > 或"|"。

  3. 匹配同一种字符可能有多种正则表达式的写法。

  4. shell本身不支持正则表达式,但是支持"*","?"等通配符。

  5. 支持正则表达式的还有sed命令,awk命令。以后可以详述。

  6. 参考:
    shell从入门到精通,张春晓等编著;
    鸟哥的Linux私房菜

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,294评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,493评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,790评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,595评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,718评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,906评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,053评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,797评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,250评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,570评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,711评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,388评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,018评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,796评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,023评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,461评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,595评论 2 350

推荐阅读更多精彩内容