文本处理,可以使用的工具挺多,主要有tr、grep、sed、cut、awk等。在这记录下他们主要的应用区别以及使用方法(待补充完善);
tr:translate的简写,主要用于压缩重复字符,删除文件中的控制字符以及进行字符转换操作。
grep:更适合单纯的查找或匹配文本
sed:更适合编辑匹配到的文本
cut:适合对文本进行截取操作
awk:更适合格式化文本,对文本进行较复杂格式处理
tr
translate的简写,主要用于压缩重复字符,删除文件中的控制字符以及进行字符转换操作。
用法:tr [OPTION]... SET1 [SET2]
常用参数:
#-s: squeeze-repeats,用SET1指定的字符来替换对应的重复字符
echo "aaabbbaacccfddd" | tr -s [abcdf] // abacfd
#-d:delete,删除SET1中指定的所有字符,不转换
echo "a12HJ13fdaADff" | tr -d "[a-z][A-Z]" //1213
#-t:truncate,将SET1中字符用SET2对应位置的字符进行替换,一般缺省为-t
echo "a1213fdasf" | tr -t [afd] [AFO] // A1213FOAsF
#-c:complement,用SET2替换SET1中没有包含的字符
cat a.txt | tr -c "[a-z][A-Z]" "#" | tr -s "#" | tr -t "#" "\n"
可简化为
cat a.txt | tr -cs "[a-z][A-Z]" "\n"
*****a.txt*******
Monday 09:00
Tuesday 09:10
Wednesday 10:11
Thursday 11:30
Friday 08:00
Saturday 07:40
Sunday 10:00
*****a.txt*******
grep
更适合单纯的查找或匹配文本
sed
更适合编辑匹配到的文本
用法:sed 选项 地址定界 编辑命令 文件
sed [选项][动作]
选项与参数:
-n :使用安静(silent)模式。在一般 sed 的用法中,所有来自 STDIN 的数据一般都会被列出到终端上。但如果加上 -n 参数后,则只有经过sed 特殊处理的那一行(或者动作)才会被列出来。
-e :直接在命令列模式上进行 sed 的动作编辑;
-f :直接将 sed 的动作写在一个文件内, -f filename 则可以运行 filename 内的 sed 动作;
-r :sed 的动作支持的是延伸型正规表示法的语法。(默认是基础正规表示法语法)
-i :直接修改读取的文件内容,而不是输出到终端。function:
a :新增行, a 的后面可以是字串,而这些字串会在新的一行出现(目前的下一行)
c :取代行, c 的后面可以接字串,这些字串可以取代 n1,n2 之间的行
d :删除行,因为是删除,所以 d 后面通常不接任何参数,直接删除地址表示的行;
i :插入行, i 的后面可以接字串,而这些字串会在新的一行出现(目前的上一行);
p :列印,亦即将某个选择的数据印出。通常 p 会与参数 sed -n 一起运行
s :替换,可以直接进行替换的工作,通常这个 s 的动作可以搭配正规表示法,例如 1,20s/old/new/g 一般是替换符合条件的字符串而不是整行
地址定界方法有:
空地址 :即对全文进行处理
-
单地址
- 指定行 #
- 匹配行/pattern/
-
地址范围
- # ,#:从#号到#号
- #,+#:从#号向下#号
- #,/pattern/ : 从#号行到被模式匹配到的行
- /pattern1/,/pattern2/ : 从模式1匹配到的行到被模式2匹配到的行
- $:表示最后一行
-
步进地址表示法
- 1~2: 所有奇数行
- 2~2: 所有偶数行
#d:删除模式空间内容
sed 'm,nd' filename; sed '/^2/d' filename; sed 'm~2d' filename; sed '//,//d' filename
#p:显示呗模式框定的内容
sed -n '1~2p' file; sed -n '/./p' file
#a \line : 追加line行至匹配到行的后面,如果是多行可使用\n实现多行追加
sed '/^UUID/ a\line1\nline2' file
#i \line : 添加line行到匹配行的前面,如果是多行可使用\n实现多行添加
sed '/^UUID/i \line1\nline2' file
#c \line : 把匹配到的行替换为line行
sed '/^UUID/c \newline' file
#! : 条件取反,一般用于模式之后,命令之前
sed '/^#/!d' FILE : 只显示非注释的行
#w /PATH : 将模式空间匹配到的行,写入指定文件中
sed '/#/!w ./w.txt' fstab : 匹配非#开始的行,并写入当前目录下的w.txt文件中
#r /PATH : 将PATH中指定的文件写入匹配到的行下方,多用于文件合并
sed '/^UUID/r ./w.txt' fstab :把当前目录下的w.txt文件写入到以UUID开头的行下
#s/// : 字符替换查找,其分隔符可自动指定,常用的有,s@@@、s###;g : 全局替换,如果只想从第几次开始替换,可使用3g即Ng
sed 's/love/& you' FILE: 将love替换为love you,&`表示对前面模式的引用
sed 's/^\(UUID\).*/Hello/' fstab1 : 将UUID开头的行替换为UUID Hello的内容
#类似应用
sed -r 's/.*#(.+)#.*/\1/'
sed 's/.*/&\n&/' file
cut
适合对文本进行截取操作,常用-c、-d、-f参数
awk
更适合格式化文本,对文本进行较复杂格式处理