linux中强大的sed和awk(上)

最近多了很多查找编辑文件和分析日志的需求,之前只是浅浅的知道sed,awk大致的用法,这段时间学下来才发现,sed和awk真是强大。

awk

awk更擅长对文件进行分析和列的操作。

条件类型加动作在接文件,这里条件类型加动作为一组,一条命令中可以放多组。花括号{}中支持 print 的格式, if, while, for ,逻辑判断等等。

$ awk '{pattern + action}' {filenames}
域编辑

例如,在我们需要输出 test.log 的第一列:

[root@localhost ~]# awk  '{print $1}' test.log
192.29.7.26
192.29.7.14
192.26.2.26
192.15.25.26

awk是这样操作的,读入有'\n'换行符分割的一条记录,然后将记录按指定的域分隔符划分域,填充域。$0则表示所有域,$1表示第一个域,$n表示第n个域。默认域分隔符是"空白键" 或 "[tab]键",所以$1代表第一列代表IP。
使用-F,可指定分隔符,如:

[root@localhost ~]# awk  -F '"'  '{print $1}' test.log 
192.29.7.26 - - [14/Dec/2015:20:58:18 +0800] POST /praise HTTP/1.1 
192.29.7.14 - - [14/Dec/2015:20:58:19 +0800] GET /api HTTP/1.1 
192.26.2.26 - - [14/Dec/2015:20:58:19 +0800] GET /api HTTP/1.1 
192.15.25.26 - - [14/Dec/2015:20:58:19 +0800] GET /api HTTP/1.1

也可指定打印的分割符,以下打印第一和第四列,使用tab陈列。

[root@localhost ~]# awk '{print $1"\t"$4}' test.log 

还有很多:

[root@localhost ~]# awk '/200/' text.log     //搜索文件中匹配200字符的行
[root@localhost ~]# awk '{print NR,NF,$1,$NF}' test.log    //显示文件file的当前记录号、域数和每一行的第一个和最后一个域
[root@localhost ~]# awk '/string/{print "\047 good \047"}{print $1,$2}' test.log    //找到匹配对象string,在其后输出特定符号,/047代表带引号
[root@localhost ~]# awk   'BEGIN { OFS="%"} {print $1,$2}'  test.log    //通过输出%,改变日志的格式
[root@localhost ~]# awk  -F ':'  'BEGIN {print "name,shell"}  {print $1","$7} END {print "blue,/bin/nosh"}'    //可以在输入前后加入特定的标识,常用于脚本中

合并拆分文件系列:

[root@localhost ~]awk '{ print $0 }' file1 file2 file3>file  //酱file1,file2,file3合并成file

awk无需在变量前添加$符号,这是与shell不一样的地方,上面的例子用到一些变量,在awk中善于运用变量会使工具用途大大增加。以下为各变量的含义。

ARGC        命令行变元个数 
ARGV        命令行变元数组 
FILENAME    当前输入文件名 
FNR  当前文件中的记录号 
FS   输入域分隔符,默认为一个空格 
RS   输入记录分隔符 
NF   当前记录里域个数 
NR   到目前为止记录数 
OFS  输出域分隔符 
ORS  输出记录分隔符 
数组与自定义变量

除了awk的内置变量,awk还可以自定义变量。

[root@localhost ~]#  awk '{count++;print $1;} END{print count}' test.log 
192.29.7.26
192.29.7.14
192.26.2.26
192.15.25.26
4

比如刘老师说想看,每分钟的请求数,以下可以将每分钟的请求数列出:

[root@localhost ~]# awk -F: '{count[$2":"$3]++} END {for (minute in count) print minute, count[minute]}' test.log 
20:58 4

使用数组可以将日志中IP的请求数统计出来

[root@localhost ~]# awk '{a[$1]+=1;}END{for(i in a){print a[i]" " i;}}' test.log
复合表达式

可以使用&&或||连接多个表达式,表达式用()扩起
(expr1) && (expr2)
(expr1) ||(expr)

比如需要查看日志中某一时间断的请求数:

awk '$4>="[01/Dec/2015:15:00:00"&&$4<="[01/Dec/2015:22:00:00"' test.log
IF

和C语言一样,基本格式是这样的

if (expression1) {
    action1
} else if (expression2) {
    action2
} else {
    action3
}

来个栗子🌰
有如下文本,要求:将第一列中重复的合并为一行,其第二列填入最长地址的那列

0001|hi
0002|dog
0001|It's a good day
0003|cat
0001|nice
0004|linux

得到的结果应为:

0001|It's a good day
0002|dog
0003|cat
0004|linux

代码:

#!/bash/bin
BEGIN{FS=OFS="|"; i=1;}
{ if(a[$1]==0){b[i]=$1;a[$1]=$2;i++}
if(length(a[$1])}
END{for(j=1;j}

比较代码:(实现不全)

awk 'BEGIN{FS=OFS="|"} !(length(a[$1])>length($2)){a[$1]=$2} END{for(i in a)print i,a[i]}' data.txt

解释:此例中,用了两个数组,a用来与$1关联,b用来顺序记录,使得在最后打印时是完全按照$1顺序打印。条件句首先判断数组元素是否是第一次写入,若非,则比较当前$2值和以前储存的值长度。
功能不全代码不能顺序打印。当$1有重复,而$2长度第一次、第二次、第三次是以递减的方式时,该代码应用得较好。但是,当$2各次得到的长度不确定时,代码不能实现上述功能。例如:本例中第5行的第二列若比第3行的第二列长度长时,功能不全代码就不能实现要求。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,816评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,729评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,300评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,780评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,890评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,084评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,151评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,912评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,355评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,666评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,809评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,504评论 4 334
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,150评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,882评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,121评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,628评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,724评论 2 351

推荐阅读更多精彩内容

  • awk介绍awk变量printf命令:实现格式化输出操作符awk patternawk actionawk数组aw...
    哈喽别样阅读 1,560评论 0 4
  • linux资料总章2.1 1.0写的不好抱歉 但是2.0已经改了很多 但是错误还是无法避免 以后资料会慢慢更新 大...
    数据革命阅读 12,149评论 2 34
  • 转载 原文的排版和内容都更加友好,并且详细,我只是在这里贴出了一部分留作自己以后参考和学习,如希望更详细了解AWK...
    XKirk阅读 3,196评论 2 25
  • awk: grep,sed,awk grep:文本过滤 sed:文本编辑 awk:文本格式化工具; 1 什么是aw...
    木林森阅读 1,769评论 0 16
  • awk简介 awk是一种编程语言,用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多...
    yeahuh阅读 3,949评论 0 7