13.grep和基本正则表达式.md · wudong/Linux学完就忘系列

文本处理工具

linux上文本处理三剑客:

grep、egrep、fgrep: 文本过滤工具(模式:pattern)工具;
grep:支持基本正则表达式;使用-E选项,支持扩展正则表达式;-F选项不支持正则表达式;
egrep:默认支持扩展正则表达式;使用-G选项,可以支持基本正则表达式;-F选项不支持正则表达式;
fgrep:不支持正则表达式;使用-E选项,支持扩展正则表达式;使用-G选项,可以支持基本正则表达式;

set:stream editor,流编辑器;文本编辑工具;
awk:linux上的实现为gawk,文本报告生成器(格式化文本);

正则表达式:Regular Expression,REGEXP

由一类特殊字符及文本字符所编写的模式,其中有些字符不表示其字面意义,而是用于表示控制或通配的功能;
分两类:
基本正则表达式:BRE (Basic Regular Expression)
扩展正则表达式:ERE (Extension Regular Expression)

grep:Global search Regular expression and pint out the line.

作用:文本搜索工具,根据用户指定的"模式(过滤条件)"对目标文本逐行进行匹配检查;打印匹配到的行;
模式:由正则表达式的元字符及文本字符所编写出的过滤条件;

grep [OPTIONS] PATTERN [FILE...]
grep [OPTIONS][-e PATTERN | -f FILE][FILE...]

OPTIONS:
--color=auto:对匹配到的文本着色后高亮显示;
-i:ignorecase,忽略字符的大小写;
-o:仅显示匹配到的字符串本身;
-v,--invert-match:显示不能被模式匹配到的行;
-E:支持使用扩展的正则表达式元字符;
-q,--qulet,--sllent:静默模式,即不输出任何内容;用于判断是否匹配成功
-A #:after,后#行
-B #:before,前#行 -C #:context, 前后各#行

grep "UUID" /etc/fstab
#grep在CentOS7中有别名
alias|grep "alias grep="

#仅显示匹配到的文本
grep -o "UUID" /etc/fstab

#显示不能被模式匹配到的行
grep -v "UUID" /etc/fstab

#匹配到存在mail的行和后2行
grep -A 2  'mail' /etc/passwd
#匹配到存在mail的行和前2行
grep -B 2  'mail' /etc/passwd
#匹配到存在mail的行和前后2行
grep -C 2  'mail' /etc/passwd

基本正则表达式元字符

字符匹配:

.:匹配任意单个字符;
[]:匹配指定范围内的任意单个字符;
[^]:匹配指定范围外的任意单个字符;
[[:digit:]]、[[:lower:]]、[[:upper:]]、[[:alpha:]]、[[:alnum:]]、[[:punct:]]、[[:space:]]

#匹配r和t之间任意2个字符
grep "r..t" /etc/passwd

#匹配r和t之间任意2个字母
grep "r[[:alpha:]][[:alpha:]]t" /etc/passwd

匹配次数:用在要指定其出现的次数的字符的后面,用于限制其前面字符出现的次数;默认工作于贪婪模式

*:匹配其前面的字符任意此:0,1,多次;
.*:匹配任意长度的任意字符;
\?:匹配其前面的字符0次或1次;即其前面的字符是可有可无的;
\+:匹配其前面的字符1次或多次;即其前面的字符要出现至少1次;
\{m\}：匹配其前面的字符m次;
\{m,n\}:匹配其前面的字符至少m次,至多n次;
特殊用法:\{0,n\}:至少n次,\{m,\}:至少m次

位置锚定

^:行首锚定;用于模式的最左侧;
$:行尾锚定;用于模式的最右侧;
特定写法:
^$:这样写代表空白行;(空白行代表这行中包含任意字符,包括空白字符)
^[[:space:]]*$:包含空白字符的行

#以root开头,以root结尾,因此该行只能包含root字符串
grep "^root$" /etc/passwd

单词:非特殊字符组成的连续字符(字符串)都称为单词;
\<或\b:词首锚定,用于单词模式的左侧;
\>或\b:词尾锚定,用于单词模式的右侧;
\<PATTERN\>:匹配完整单词;

#"root"左侧非特殊字符
grep "\<root" /etc/passwd
#"root"右侧非特殊字符
grep "root\>" /etc/passwd
#"root"左右侧非特殊字符
grep "\<root\>" /etc/passwd

练习:
1、显示/etc/passwd文件中不以/bin/bash结尾的行;

grep -v "/bin/bash$" /etc/passwd

2、找出/etc/passwd文件中两位数或三位数;

grep "\<[0-9]\{2,3\}\>" /etc/passwd

3、找出/etc/grub2.cfg文件中,以至少一个空白字符开头,且后面非空白字符的行;

grep "[[:space:]]\+[^[:space:]]" /etc/grub2.cfg

4.找出"netstat -tan"命令的结果中以"LISTEN"后跟0、1或多个空白字符结尾的行;

netstat -tan|grep "LISTEN[[:space:]]*$"

分组及引用

:将一个或多个字符捆绑在一起,当做一个整体进程处理;
如:$xy$*ab:代表xy可以出现一次或多次;

后向引用:引用前面的分组括号中的模式所匹配到的字符;

Note:分组括号中的模式匹配到的结果会被正则表达式引擎自动记录于内部的变量中,这些变量为:
\1:模式从左侧起,第一个左括号以及与之匹配的右括号之间的模式所匹配到的字符;
\2:模式从左侧起,第二个左括号以及与之匹配的右括号之间的模式所匹配到的字符;
...

示例1:
文本:love.abc:

He loves his lover. 
He likes his lover.
She likes her liker.  
She loves her liker.

#匹配到第一个分组的结果通过`\1`引用该分组的结果
grep "\(l..e\).*\1" ~/love.abc

示例2

"^\(r..t\).*\1" /etc/passwd

egrep

支持扩展的正则表达式;实现类似于grep文本过滤功能:grep -E
使用扩展正则表达式的好处就是把""转义符给去了,所有很多模式使用扩展正则表达式来写更易于理解

选项
-G:支持基本正则表达式

扩展正则表达式的元字符:
字符匹配: .:任意单个字符;
[]:指定范围内的任意单个字符;
[^]:指定范围外的任意单个字符;

次数匹配:
*:任意次,0,1或多次;
?:0次或1次,其前的字符是可有可无的;
+:其前字符至少1次;
{m}:其前的字符m次;
{m,n}:至少m次,至多n次;
可以表示:{0,n}、{m,}

位置锚定
^:行首锚定;用于模式的最左侧;
$:行尾锚定;用于模式的最右侧;
\<,\b:词首锚定;
\>,\b:词尾锚定;

分组及引用
():分组;
后向引用:\1,\2,...

或:
a|b:表示a或者b;
C|cat:表示C或cat;
(c|C)at:表示cat或Cat;

#扩展正则表达式除了词首锚定和词尾锚定需要用到转义`\`,其他的元字符都不需要使用
egrep  "\<[0-9]{2,3}\>" /etc/passwd
#与上面意义相同
grep -E "\<[0-9]{2,3}\>" /etc/passwd

1.找出/proc/meminfo文件中,所有在大写或小写S开头的行;至少有三种实现方式;

grep -i -E "^s" /proc/meminfo
grep -E "^[sS]" /proc/meminfo
grep -E "^(s|S)" /proc/meminfo

2.显示当前系统上root、centos或user1用户的相关信息;

grep -E "^(root|centos|user1)\>" /etc/passwd

3.找出/etc/rc.d/init.d/functions文件中某单词后面跟一个小括号的行;

#-o:代表只匹配字符串本身而不是整行;[_[:alnum:]]:匹配字母或数字,可以在外层"[]"中加入任意想匹配的字符,这里加入"_"
grep -E -o "\<[_[:alnum:]]+\>\(\)" /etc/rc.d/init.d/functions

4.使用echo命令输出一绝对路径,使用egrep取出基名;

#匹配行尾非"/"的字符
echo "/etc/sysconfig" | grep -E -o "[^/]+$"
#行尾的"/"可有可无的
echo "/etc/sysconfig/" | grep -E -o "[^/]+/?$"
echo "/etc/sysconfig" | grep -E -o "[^/]+/?$"

5.找出ifconfig命令结果中的1-255之间的数值;

ifconfig | grep -E -o "[0-9]|[1-9][0-9]|1[0-9]{2}|2[0-5]{2}"

6.找出ifconfig命令结果中的IP地址;

7.添加用户bash,testbash,basher以及nologin(其shell为/sbin/nologin);而后找出/etc/passwd文件中用户名同shell名的行;

useradd bash
useradd -s /sbin/nologin nologin
grep -E "^([^:]+\>).*\1$" /etc/passwd

8.使用echo命令输出一绝对路径,使用egrep取出路径名;类似于对其执行dirname命令的结果;

fgrep:不支持正则表达式元字符;任何字符都当做字符本身的意义;

当无需要用到元字符去编写模式时,使用fgrep性能更好;

文本查看及处理工具:wc,cut,sort,uniq,diff,patch

wc命令:word count,显示某个文件中行首、字节数、单词数

选项
-l:line,仅显示行数
-w:words,仅显示单词数
-c:byyes,仅显示字节数

cut命令:文本截取

OPTION:
-d CHAR:以指定的字符为分隔符;如分隔符为|则使用-d|;
-f FiELDS:挑选出来的字段
#:指定的单个字段;
#-#:指定连续的多个字段;
#,#：离散的多个字段;

#只保留用户名和shell类型
cut -d: -f1,7 /etc/passwd
#获取1,3-5,7字段
cut -d: -f1,3-5,7 /etc/passwd

#取出wc中的行号
wc -l /etc/rc.d/init.d/functions | cut -d' ' -f1

sort命令：排序

sort [OPTION]... [FILE]...
-n:根据数值大小排序而非字符排序;
-t CHAR:指定分隔符;
-k #:用于排序比较的字段;
-r:降序,默认是升序;
-f:忽略字符大小写;
-u:重复的行只保留一份;(连续且相同的行)

sort /etc/passwd

#取/etc/passwd文件中的用户ID,默认是根据字符来排序的
cut -d: -f3 /etc/passwd | sort
#加上-n就会根据数值大小排序
cut -d: -f3 /etc/passwd | sort -n

#-t指定分隔符为:,-k指定为filed3来进行排序,-n根据数值排序
sort -t: -k3 -n /etc/passwd
#-r使用降序
sort -t: -k3 -n -r /etc/passwd

#获取所有用户中一共有几种shell
cut -d: -f7 /etc/passwd | sort -u | wc -l

uniq命令:报告或移除重复的行

uniq [OPTION]...[INPUT[OUTPUT]]
OPTION
-c:显示每行的重复次数;
-u:仅显示未曾重复过的行;
-d:仅显示重复过的行;

#移除重复的行
cut -d: -f7 /etc/passwd | sort | uniq
#统计所有shell的用户使用数
cut -d: -f7 /etc/passwd | sort | uniq -c
#统计只有一个用户使用的shell类型
cut -d: -f7 /etc/passwd | sort | uniq -u
#所有大于一个用户使用的shell类型
cut -d: -f7 /etc/passwd | sort | uniq -d

diff命令:逐行比较文件的不同内容

diff [OPTION]... FILES
-u:使用unfied机制,即显示要修改的行的上下文,默认为3行;

diff /PATH/TO/OLDFILE /PATH/TO/NEWFILE > /PATH/TO/PATCH_FILE

patch:向文件打补丁

patch [OPTIONS] -i /PATH/TO/PATCH_FILE /PATH/TO/OLDFILE
patch /PATH/TO/OLDFILE < /PATH/TO/PATCH_FILE

cp /etc/fstab ./fstab
cp fstab fstab.new
#随意在新文件里加入点文字
vim fstab.new
#查看差异
diff fstab fstab.new
#将差异重定向到fstab.patch文件
diff fstab fstab.new > fstab.patch
#打补丁到老文件
patch -i fstab.patch fstab
#再次比较两个文件就没有什么不同的了
diff fstab fstab.new

还可以使用-R选项还原到补丁前的状态

patch -R -i fstab.patch fstab

wudong / Linux学完就忘系列

文本处理工具

linux上文本处理三剑客:

正则表达式:Regular Expression,REGEXP

grep:Global search Regular expression and pint out the line.

基本正则表达式元字符

字符匹配:

匹配次数:用在要指定其出现的次数的字符的后面,用于限制其前面字符出现的次数;默认工作于贪婪模式

位置锚定

分组及引用

后向引用:引用前面的分组括号中的模式所匹配到的字符;

egrep

fgrep:不支持正则表达式元字符;任何字符都当做字符本身的意义;

文本查看及处理工具:wc,cut,sort,uniq,diff,patch

wc命令:word count,显示某个文件中行首、字节数、单词数

cut命令:文本截取

sort命令：排序

uniq命令:报告或移除重复的行

diff命令:逐行比较文件的不同内容

patch:向文件打补丁

简介

发行版

贡献者

近期动态

wudong / Linux学完就忘系列 .gitee-modal { width: 500px !important; }

文本处理工具

linux上文本处理三剑客:

正则表达式:Regular Expression,REGEXP

grep:Global search Regular expression and pint out the line.

基本正则表达式元字符

字符匹配:

匹配次数:用在要指定其出现的次数的字符的后面,用于限制其前面字符出现的次数;默认工作于贪婪模式

位置锚定

分组及引用

后向引用:引用前面的分组括号中的模式所匹配到的字符;

egrep

fgrep:不支持正则表达式元字符;任何字符都当做字符本身的意义;

文本查看及处理工具:wc,cut,sort,uniq,diff,patch

wc命令:word count,显示某个文件中行首、字节数、单词数

cut命令:文本截取

sort命令：排序

uniq命令:报告或移除重复的行

diff命令:逐行比较文件的不同内容

patch:向文件打补丁

简介

发行版

贡献者

近期动态

搜索帮助

wudong / Linux学完就忘系列