Linux三剑客-grep、awk、sed

类比SQL

  • grep = select * from table
  • awk = select field from table
  • sed = update table set field = new where field = old

grep 命令

Linux grep 命令用于查找文件里符合条件的字符串。

语法
grep [-abcEFGhHilLnqrsvVwxy][-A<显示列数>][-B<显示列数>][-C<显示列数>][-d<进行动作>][-e<范本样式>][-f<范本文件>][--help][范本样式][文件或目录...]
常用参数

-i 或 --ignore-case : 忽略字符大小写的差别。
-o 或 --only-matching : 只显示匹配的字符串部分。
-n 或 --line-number : 在显示符合样式的那一行之前,标示出该行的列数编号。
-v 或 --revert-match : 显示不包含匹配文本的所有行。
-E 或 --extended-regexp : 使用扩展正则表达式。
-A -B -C 打印命中数据的上下文。
其他参数参考:https://www.runoob.com/linux/linux-comm-grep.html

pattern正则表达式
  • 基本表达式(BRE)

^ 开头 $ 结尾
[a-z][0-9] 区间
* 0个或多个

  • 扩展正则(ERE)

? 非贪婪匹配
+ 一个或者多个
() 分组
{} 范围约束
| 匹配多个表达式的任何一个

grep实例
  • 从三个文件里找到"hello"字符串:
$ grep "hello" file1 file2 file3
file1: hello world!
file2: hello
file3: hello linux!
  • 从三个文件里找到"hello"字符串,加入-o参数:
$ grep -o "hello" file1 file2 file3
file1: hello
file2: hello
file3: hello
  • 用参数-i不区分大小写查找字符串:
$ echo "AbC" | grep -i AB
AbC
  • 使用扩展正则表达式
$ echo "1234 7654" | grep -oE '[0-9]4'
34
54
$ echo "1234 7654" | grep -oE '[0-9]4|76'
34
76
54
  • 打印上下文
# 已有文件test.txt
hello 1
hello 2
hello 3
hello 4
hello 5
# -A代表after,即后面几行
$ cat test.txt | grep -A1 "hello 3"
hello 3
hello 4
$ cat test.txt | grep -A2 "hello 3"
hello 3
hello 4
hello 5
# -B代表before,即前面几行
$ cat test.txt | grep -B1 "hello 3"
hello 2
hello 3
$ cat test.txt | grep -B2 "hello 3"
hello 1
hello 2
hello 3
# -C代表context,即前面和后面几行
$ cat test.txt | grep -C1 "hello 3"
hello 2
hello 3
hello 4

awk 命令

awk是一种语言解析引擎,具备完整的编程特性,如执行命令、网络请求等。理论上来说,awk可以完全替代grep。
注意:尽量使用单引号,避免转义

awk语法
awk 'pattern{action}'
常用参数

awk 'BEGIN{}END{}' 开始和结束
awk '/Running/' 正则匹配
awk '/aa/,/bb/' 区间选择
awk '$2~/xxx/' 字段匹配
awk 'NR==2' 取第二行
awk 'NR>1' 去掉第一行

内置变量

FS 字段分隔符(每一行的字符串的分隔符)
OFS 输出数据的字段分隔符(用于合并列)
RS 记录分隔符(分成多行)
ORS 输出字段的行分隔符(用于合并行)
NF 字段数(每行的列数)
NR 记录数(行数)

awk的字段数据处理

-F 参数指定字段分隔符
BEGIN{FS="_"} 也可以表示分隔符
$0 代表原来的行
$1 代表第一个字端(相当于SQL里的第一列)
$N 代表第N个字段
$NF 代表最后一个字段

awk实例
  • 用BEGIN和END在前后打印内容
$ ps -ef | awk 'BEGIN{print "start"}{print $0}END{print "end"}'
start
     UID     PID    PPID  TTY        STIME COMMAND
      HC     337     336 pty0     15:56:42 /usr/bin/bash
      HC     571     337 pty0     17:20:44 /usr/bin/ps
      HC     336       1 ?        15:56:42 /usr/bin/mintty
end

使用正则匹配(支持扩展正则)

$ ps -ef | awk '/mintty/'
      HC     336       1 ?        15:56:42 /usr/bin/mintty
$ ps -ef | awk '/mintty|ps/'
      HC     611     337 pty0     17:23:40 /usr/bin/ps
      HC     336       1 ?        15:56:42 /usr/bin/mintty

区间选择匹配

$ ps -ef | awk '/m/,/y/'
      HC     336       1 ?        15:56:42 /usr/bin/mintty

NR过滤行

$ ps -ef
     UID     PID    PPID  TTY        STIME COMMAND
      HC     337     336 pty0     15:56:42 /usr/bin/bash
      HC     637     337 pty0     17:31:25 /usr/bin/ps
      HC     336       1 ?        15:56:42 /usr/bin/mintty
$ ps -ef | awk 'NR>1'
      HC     641     337 pty0     17:31:30 /usr/bin/ps
      HC     337     336 pty0     15:56:42 /usr/bin/bash
      HC     336       1 ?        15:56:42 /usr/bin/mintty
$ ps -ef | awk 'NR>2'
      HC     336       1 ?        15:56:42 /usr/bin/mintty
      HC     646     337 pty0     17:31:36 /usr/bin/ps

字段筛选

$ ps -ef | awk '{print $1}'
UID
HC
HC
HC
$ ps -ef | awk '{print $NF}'
COMMAND
/usr/bin/ps
/usr/bin/bash
/usr/bin/mintty
/usr/bin/bash

指定行分隔符,这里使用冒号分隔

$ echo $PATH
/c/Users/HC/bin:/mingw64/bin:/usr/local/bin:/usr/bin:/bin:/mingw64/bin:/usr/bin:/c/Users/HC/bin:/d/python/Scripts:/d/python:/d/python3.7/Scripts

$ echo $PATH | awk 'BEGIN{RS=":"}{print $0}'
/c/Users/HC/bin
/mingw64/bin
/usr/local/bin
/usr/bin
/bin
/mingw64/bin
/usr/bin
/c/Users/HC/bin
/d/python/Scripts
/d/python
/d/python3.7/Scripts

指定字段分隔符,这里指定"/"

$  echo $PATH | awk 'BEGIN{RS=":"}{print $0}' | awk 'BEGIN{FS="/"}{print $1,$2,$3,$4}'
 c Users HC
 mingw64 bin
 usr local bin
 usr bin
 bin
 mingw64 bin
 usr bin
 c Users HC
 d python Scripts
 d python
 d python3.7 Scripts

把单行拆分为多行

echo $PATH | awk 'BEGIN{RS=":"}{print $0}'
echo $PATH | awk 'BEGIN{RS=":"}{print NR,$0}'
echo $PATH | awk 'BEGIN{RS=":"}END{print NR}'

多行组合为单行

echo $PATH | awk 'BEGIN{RS=":"}{print $0}' | awk 'BEGIN{FS="\n";ORS=":"}{print $0}'

数据计算
这里相当于a=(10+20+30)/3=20

$ echo '1,10
> 2,20
> 3,30' | awk 'BEGIN{a=0;FS=","}{a+=$2}END{print a/ NR}'
20

sed 命令

sed 可依照脚本的指令来处理、编辑文本文件。

sed语法
sed [addr]X[options]
常用参数

-e 表达式
sed -n '2p' 打印第二行
sed 's#hello#world#' 修改
-i 直接修改源文件
-E 扩展表达式
--debug 调试

pattern

20 30,35 行数与行数范围
/pattern/ 正则匹配
//,//正则匹配的区间

action

d 删除
p 打印,通常结合-n参数
s/原字符串/替换后的字符串/[g] 替换(g替换全部,不加只替换第一个匹配的)
\1 \2 匹配的字段

sed实例

替换字符串(s是固定语法,要以这个开头)

$ echo "helloworld" | sed 's#he#xx#'
xxlloworld

正则表达式和区间选择(-n和p一定要写)

$ echo '1
> 2
> 3
> 4
> 5' | sed -n '/3/,/4/p'
3
4

删除(此时不需要-n)

$ echo '1
2
3
4
5' | sed '/3/,/4/d'
1
2
5

全部替换(15替换为20)

$ ps -ef | sed -e 's/CMD/command/' -e 's#15#20#g'
     UID     PID    PPID  TTY        STIME COMMAND
      HC     823     337 pty0     20:40:27 /usr/bin/ps
      HC     337     336 pty0     20:56:42 /usr/bin/bash
      HC     336       1 ?        20:56:42 /usr/bin/mintty
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容