4-19 Linux中的正则表达式 --- 字符匹配

1、正则表达式和通配符有点像。区别在于通配符匹配的是文件名和目录名中的字符串,不能匹配文本中内容的字符串。而正则表达式匹配的是文本中的字符串。

2、正则表达式(REGEXP):由一类特殊字符及文本符号所编写的表达式,这种表达式的功能是匹配文本当中字符串。

3、正则表达式的特点:可以通过特殊字符及文本符号灵活组合各种过滤条件去匹配文本内容,从而达到自由度颇高的筛查方式。

4、正则表达式分两类:基本正则表达式(BRE)、扩展正则表达式(ERE),grep 加上 -E 参数就是使用 egrep。

5、元字符分类:元字符是指正则表达式中使用的特殊字符,这些特殊符号具有特定的功能。从功能上分类有:字符匹配、匹配次数、位置锚定、分组。


  • 字符匹配:
    ①、 .:匹配任意单个字符。
    ②、 [ ]:匹配指定范围内的任意单个字符。
    ③、 [^]:排除匹配指定范围内的任意单个字符。
    ④、 [:alnum:]:字母和数字。
    ⑤、 [:alpha:]:任何英文大小写字符,即 A-Z,a-z。
    ⑥、 [:lower:]:小写字母。
    ⑦、 [:upper:]:大写字母。
    ⑧、 [:blank:]:空白字符(空格和制表符)。
    ⑨、 [:space:]:水平和垂直的空白字符(比 [:blank:] 包含的范围广)。
    ⑩、 [:cntrl:]:不打印的控制字符(退格、删除...)。
    ⑩-①、 [:digit:]:十进制数字。
    ⑩-②、 [:xdigit]:十六进制数字。
    ⑩-③、 [:graph:]:可打印的非空白字符。
    ⑩-④、 [:print:]:可打印字符。
    ⑩-⑤、 [:punct:]:标点符号。

①、 .:匹配任意单个字符。

  • 创建一个文档 regexpTest.txt 。
[root@localhost ~]# vim regexpTest.txt

abc
abbc
abbbc
a.c
a/c
aabcd
aabbcc
                                                                               
~                                                                                       
~                                                                                       
~                                                                                       
:wq    ## 保存退出

  • "a.c":表示过滤 a 与 c 之间夹着一位任意字符的字符串。
a.c:字符串中只要包含 a 与 c 之间有一位任意字符就会被过滤出来
  • "a..c":表示过滤 a 与 c 之间夹着两位任意一位字符的字符串。
a..c:字符串中只要包含 a 与 c 之间有两位任意字符就会被过滤出来
  • 汉字也算一个字符,( . )代表任意字符。
[root@localhost ~]# vim regexpTest.txt    ##  regexpTest.txt 添加新内容

abc
abbc
abbbc
a.c
a/c
aabcd
aabbcc
a我c    ## 新字符串                                                                        
~                                                                                                 
~                                                                                                 
~                                                                                                 
:wq        

a我c:字符串 a 与 c 之间包含汉字字符也会被过滤出来
  • "...":表示过滤包含三位的字符串。
  • regexpTest.txt 新增点内容。
[root@localhost ~]# vim regexpTest.txt     ##  regexpTest.txt 添加新内容 

abc
abbc
abbbc
a.c
a/c
aabcd
aabbcc
a我c
a    ## 新增的内容
ab    ## 新增的内容                                                                                           
~                                                                                                 
~                                                                                                 
~                                                                                                 
:wq    ## 保存退出                                  
  • 从输出结果可以看出不只是过滤出三位的字符串,而是三位以上的字符串都过滤出来了。这是 grep 默认的特性贪婪模式,尽可能的匹配满足的长度。
只要字符串满足三位字符就会被过滤出来,(满三位标红)
  • "a...":表示过滤包含 a 开头,后面三位任意的字符。
a 开头或 a 开头后面满足三位任意的字符
  • "..c":表示过滤包含 c 结尾,前面有两位任意的字符。
..c:c 前面满足两位任意字符
  • "a \ .c":\ 转义字符,转义之后的。就是 . 本身的含义。不是正则表达式 . 任意单个字符的意思。所以,"a \ .c" 就是过滤出 a.c 的字符串。
\ 转义字符,转义之后是字符本身

②、 [ ]:匹配指定范围内的任意单个字符。

  • "a[qwer我].":a 开头,第二位 [qwer我] 中括号的内容匹配文本中的字符串第二位,第三位 . 代表任意字符的意思。如果文本中的字符串有 a 开头,第二位也符合 q、w、e、r、我、的任意一个字符,而且满足三位的条件,就会打印出来。
文件内容匹配中括号范围内的任意单个字符图解
文件内容匹配中括号范围内的任意单个字符图解

③、 [^]:排除匹配指定范围内的任意单个字符。

  • "a[^abc]":a 开头,第二位 [^abc] 中括号的内容取反,即排除掉。除了中括号内的 a、b、c 字符,匹配其他字符都可以过滤出结果。

④、 [:alnum:]:过滤字母和数字,包含了大写字母、小写字母 和 10个数字(0-9)。

  • 更新以下 regexpTest.txt 内容
[root@localhost ~]# vim regexpTest.txt 

---------
loginTest
---------
sn:888888
---------                                                                                               
~                                                                                                 
~                                                                                                 
~                                                                                                 
:wq

  • 由于 [:alunm:] 包含了大写字母、小写字母 和 10个数字(0-9)。当用 [ ] 中括号包含 [:alnum:] 就相当于大写字母、小写字母 和 10个数字(0-9)匹配文本中的内容。但凡符合要求的都会标红显示出来。
[:alnum:]:过滤字母和数字
  • 更改一下 regexpTest.txt 内容,加入一些中文看看 [:alnum:] 过滤的效果如何?
[root@localhost ~]# vim regexpTest.txt 

----------
登录测试:
Test
----------
测试密码:
888888
----------                                                                         
~                                                                                                 
~                                                                                                 
~                                                                                                 
:wq                        
  • 从输出效果看,[:alnum:] 也可以输出中文。
[:alnum:] 也可以输出中文
  • [:alnum:] 也可以匹配指定范围的内容。例如过略 T 开头,第二位任意小写字母的内容。
    T[a-z]:T 开头,第二位 a-z 任意小写字母作为过滤条件。
    T[[:alnum:]]:T 开头,第二位 A-Z 大写字母、a-z 小写字母 和 10个数字(0-9)作为过滤条件。
过略 T 开头,第二位任意小写字母的内容
  • 当然 [:alnum:] 作为一个 A-Z 大写字母、a-z 小写字母 和 10个数字(0-9)的过滤条件范围有点大。第二位只要符合大写、小写 和 数字范围的字符都会被过滤出来。
[:alnum:] 类似一个数据的集合
  • 单纯想过略 T 开头,第二位为任意小写字母的时候,用 [:alnum:] 显然不合适。这里只是想记录一下 [:alnum:] 这类特殊字符本意上类似数据的集合供使用者方便使用 和 写法上加了 [ ] 中括号的意思。

⑤、 [:alpha:]:任何英文大小写字符,即 A-Z,a-z。

  • 更改一下 regexpTest.txt 内容。
[root@localhost ~]# vim regexpTest.txt 

------------
大写英文:                  
ABC                         
------------                
小写英文:                  
abc                         
------------                                                                            
~                                                                                       
~                                                                                       
~                                                                                       
:wq

[:alpha:] 可以过滤中文字符
  • [:alpha:] 匹配英文大小写字符,即 A-Z,a-z
[:alpha:] 匹配指定范围的内容

⑥、 [:lower:]:只过滤小写字母。

[:lower:]:只过滤小写字母

⑦、 [:upper:]:只过滤大写字母。

[:upper:]:只过滤大写字母

⑧、 [:blank:]:空白字符(空格和制表符)。

  • 更改一下 regexpTest.txt 内容。
[root@localhost ~]# vim regexpTest.txt 

------------
空格(space):                              this's space.
------------
制表符(tab):            this's tab.
------------
                                                           
~                                                                                       
~                                                                                       
~                                                                                       
:wq                                                     
  • 在输出中用鼠标括住输出内容就可以看到标红的部分,分别是 空格space 和 制表符 tab。
[:blank:]:空格和制表符

⑨、 [:space:]:水平和垂直的空白字符(比 [:blank:] 包含的范围广)。

[root@localhost ~]# vim regexpTest.txt 

----------
登录测试:              Test    ## <--- Test 前面有 2 个 tab
----------
测试密码:      888888    ## <--- Test 前面有 1 个 tab
----------  ## <--- 这里结尾有 1 个空格
                                                                                     
~                                                                                                 
~                                                                                                 
~                                                                                                 
:wq

  • 通过 [:space:] 可以看到过滤出 regexpTest.txt 文件中的空白字符。
[:space:] 过滤空白字符

⑩-①、 [:digit:]:十进制数字。

[:digit:] 显示所有的数字内容

⑩-③、 [:graph:]:可打印的非空白字符。

[:graph:]:可打印的非空白字符

⑩-④、 [:print:]:可打印字符。相当于 [:alnum:]、[:punct:] 和 space。

  • 从输出效果看出 [:print:] 可以过滤中文、大小写英文、数字、标点 和 空格。但是不能过滤 tab。
[:print:] 的效果

⑩-⑤、 [:punct:]:标点符号。

[root@localhost ~]# vim regexpTest.txt 

----------
登录测试:
Test
----------
测试密码:
888888
----------
符号测试
----------
` ~ ! @ # $ % ^ & * ( ) _ - + = \ | [ ] { } ; ' : " , . / < > ?
----------       
                                                                           
~                                                                                       
~                                                                                       
~                                                                                       
:wq                                                  
[:punct:]:标点符号
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,839评论 6 482
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,543评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 153,116评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,371评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,384评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,111评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,416评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,053评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,558评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,007评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,117评论 1 334
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,756评论 4 324
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,324评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,315评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,539评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,578评论 2 355
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,877评论 2 345

推荐阅读更多精彩内容