7.3 grep命令与正则表达式
目录
grep命令与正则表达式
Linux 中有文本处理三剑客grep
,sed
,awk
,它们都会用到正则表达式。bash 中正则表达式分为基础正则表达式和扩展的正则表达式。本节我们来学习 grep 命令与基本的正则表达式。
1. grep
grep 存在一组相关命令
- grep: 支持基本的正则表达式 == grep -G
- egrep: 支持扩展的正则表达式 == grep -E
- fgrep: 不支持正则表达式,匹配速度快 == grep -F,无须转义
grep [-acinvAB] pattern filename
-o
:仅显示匹配到字符串本身-a
:将 binary 文件已 text 文件的方式查找数据-c
:计算找到"查找字符串" 的次数-i
:忽略大小写-n
:输出行号-v
:反向匹配-q
:静默模式,不输出匹配的文本,通过 echo $? 获取是否匹配成功-A
:after,后接数字,列出匹配行及之后 n 行-B
:before,后接数字,列出匹配行及之前 n 行-C
:context,上下文,列出匹配前后各 n 行--color=auto
:将找到的关键词高亮显示
2. 基础正则表达式
基础正则表达式大致上可以分为四类:
- 字符匹配
- 匹配次数
- 位置锚定
- 分组及引用
需要额外说明的是下面的\
转义符是必须的,因为这些元字符在 bash 中有特殊含义,需要转义。
字符匹配
元字符 | 作用 |
---|---|
. |
匹配任意单个字符 |
[] |
匹配指定范围内的任意单个字符 |
[^] |
匹配指定范围外的任意单个字符 |
[[:digit:]] |
数字 |
[[:lower:]] |
小写字母 |
[[:upper:]] |
大写字母 |
[[:alpha:]] |
字母 |
[[:alnum:]] |
数字+字母 |
[[:punct:]] |
特殊符号 |
[[:space:]] |
空白字符 |
匹配次数
用在要指定其出现的次数的字符的后面,用于限制其前面字符出现的次数;默认工作于贪婪模式;
元字符 | 作用 |
---|---|
* |
匹配其前面的字符任意次;0,1,多次 |
.* |
匹配任意长度的任意字 |
\? |
匹配其前面的字符0次或1次;即其前面的字符是可有可无的 |
\+ |
匹配其前面的字符1次或多次;即其面的字符要出现至少1次 |
\{m\} |
匹配其前面的字符m次 |
\{m,n\} |
匹配其前面的字符至少m次,至多n次 |
\{0,n\} |
至多n次 |
\{m,\} |
至少m次 |
位置锚定
匹配单词或句子的首部或尾部
元字符 | 作用 |
---|---|
^ |
行首锚定;用于模式的最左侧 |
$ |
行尾锚定;用于模式的最右侧 |
^PATTERN$ |
用于PATTERN来匹配整行 |
^$ |
匹配空白行 |
^[[:space:]]*$ |
空行或包含空白字符的行 |
\< 或 \b |
词首锚定,用于单词模式的左侧 |
\> 或 \b |
词尾锚定,用于单词模式的右侧 |
\<PATTERN\> |
匹配完整单词 |
分组及引用
\(\)
:
- 将一个或多个字符捆绑在一起,当作一个整体进行处理
- 分组括号中的模式匹配到的内容会被正则表达式引擎自动记录于内部的变量中,比如:
\1
:表示模式从左侧起,第一个左括号以及与之匹配的右括号之间的模式所匹配到的字符\2
:表示模式从左侧起,第二个左括号以及与之匹配的右括号之间的模式所匹配到的字符\n
:其他一次类推,这种引用前面的分组括号中的模式所匹配到的字符叫做后向引用
|
|
3. 扩展正则表达式
扩展正则表达式与基本正则表达式主要有两点区别
- 不需要额外的转义符
\
,词首词尾锚定仍为\<
,\>
,\b
- 支持
|
表示或- a|b:a或者b;
- C|cat:C或cat
- (c|C)at:cat或Cat
|
|