awk是linux下以字段为单位处理文本的利器,语法为awk ‘pattern {action}’ file,支持内置变量、BEGIN/END块、条件判断和字符串操作,常用于日志分析、系统信息提取与统计。

awk 是 Linux 下处理文本的利器,特别适合按行、按列提取、统计、过滤和格式化数据。它不像 sed 那样专注编辑,也不像 grep 只做匹配,而是以“字段为单位”做逻辑处理,写法简洁,上手快,一条命令常顶一个 python 小脚本。
awk 的基本结构和运行方式
awk 的核心语法是:awk ‘pattern {action}’ file。其中 pattern 是匹配条件(可省略,默认每行都处理),action 是执行动作(如打印、计算、判断)。最常用的内置变量有:
- $0:整行内容
- $1, $2, …:第1、第2个字段(默认空格或制表符分隔)
- NF:当前行字段总数
- NR:当前处理的行号(从1开始)
- FS:输入字段分隔符(默认空白);OFS:输出分隔符(默认空格)
常用实例:从日志和系统命令中快速提取信息
比如查看 df -h 输出中使用率超过 80% 的分区:
df -h | awk ‘$5+0 > 80 {print $1, $5}’
说明:$5 是“已用百分比”,加 0 是强制转成数字(避免带 % 符号时字符串比较出错);{print $1, $5} 输出设备名和百分比。
再比如统计 nginx 日志中访问次数最多的前 3 个 IP:
awk ‘{print $1}’ access.log | sort | uniq -c | sort -nr | head -3
或者直接用 awk 统计(更高效):
awk ‘{ip[$1]++} END {for (i in ip) print ip[i], i}’ access.log | sort -nr | head -3
用 BEGIN 和 END 做初始化与汇总
awk 在读取文件前执行 BEGIN 块,在读完所有行后执行 END 块,非常适合做统计汇总。
例如计算 /etc/passwd 中 shell 字段(第7列)的种类和数量:
awk -F: ‘BEGIN {print “ShelltCount”} {sh[$7]++} END {for (s in sh) print s, sh[s]}’ /etc/passwd | sort -k2nr
这里 -F: 指定冒号为分隔符;BEGIN 打印表头;END 遍历数组并输出结果。
简单条件判断和字符串操作
awk 支持 if、else、正则匹配(~ 和 !~)、substr、Length、gsub 等函数。
例如:只打印 /etc/fstab 中非注释、非空行,且第3列是 ext4 的设备:
awk ‘$1 !~ /^#/ && NF > 0 && $3 == “ext4” {print $1, $2}’ /etc/fstab
又如把某列小写转大写:
awk ‘{print toupper($2)}’ data.txt
替换字段中的某个单词(类似 sed):
awk ‘{gsub(/old/, “new”, $3); print}’ file.txt
基本上就这些。awk 不需要编译,即写即跑,配合管道几乎能覆盖 80% 的日常文本分析需求。写多了你会发现,它不是“替代脚本语言”,而是“让脚本语言变得不必要的那个工具”。