Linux awk脚本入门教程_Linux强大的文本分析工具实例

27次阅读

awk是linux下以字段为单位处理文本的利器，语法为awk ‘pattern {action}’ file，支持内置变量、BEGIN/END块、条件判断和字符串操作，常用于日志分析、系统信息提取与统计。

awk 是 Linux 下处理文本的利器，特别适合按行、按列提取、统计、过滤和格式化数据。它不像 sed 那样专注编辑，也不像 grep 只做匹配，而是以“字段为单位”做逻辑处理，写法简洁，上手快，一条命令常顶一个 python 小脚本。

awk 的基本结构和运行方式

awk 的核心语法是：awk ‘pattern {action}’ file。其中 pattern 是匹配条件（可省略，默认每行都处理），action 是执行动作（如打印、计算、判断）。最常用的内置变量有：

$0：整行内容
$1, $2, …：第1、第2个字段（默认空格或制表符分隔）
NF：当前行字段总数
NR：当前处理的行号（从1开始）
FS：输入字段分隔符（默认空白）；OFS：输出分隔符（默认空格）

常用实例：从日志和系统命令中快速提取信息

比如查看 df -h 输出中使用率超过 80% 的分区：

df -h | awk ‘$5+0 > 80 {print $1, $5}’

说明：$5 是“已用百分比”，加 0 是强制转成数字（避免带 % 符号时字符串比较出错）；{print $1, $5} 输出设备名和百分比。

再比如统计 nginx 日志中访问次数最多的前 3 个 IP：

awk ‘{print $1}’ access.log | sort | uniq -c | sort -nr | head -3

或者直接用 awk 统计（更高效）：

awk ‘{ip[$1]++} END {for (i in ip) print ip[i], i}’ access.log | sort -nr | head -3

用 BEGIN 和 END 做初始化与汇总

awk 在读取文件前执行 BEGIN 块，在读完所有行后执行 END 块，非常适合做统计汇总。

例如计算 /etc/passwd 中 shell 字段（第7列）的种类和数量：

Ghiblio

专业AI吉卜力风格转换平台，将生活照变身吉卜力风格照

157

查看详情

awk -F: ‘BEGIN {print “ShelltCount”} {sh[$7]++} END {for (s in sh) print s, sh[s]}’ /etc/passwd | sort -k2nr

这里 -F: 指定冒号为分隔符；BEGIN 打印表头；END 遍历数组并输出结果。

简单条件判断和字符串操作

awk 支持 if、else、正则匹配（~ 和 !~）、substr、Length、gsub 等函数。

例如：只打印 /etc/fstab 中非注释、非空行，且第3列是 ext4 的设备：

awk ‘$1 !~ /^#/ && NF > 0 && $3 == “ext4” {print $1, $2}’ /etc/fstab

又如把某列小写转大写：

awk ‘{print toupper($2)}’ data.txt

替换字段中的某个单词（类似 sed）：

awk ‘{gsub(/old/, “new”, $3); print}’ file.txt

基本上就这些。awk 不需要编译，即写即跑，配合管道几乎能覆盖 80% 的日常文本分析需求。写多了你会发现，它不是“替代脚本语言”，而是“让脚本语言变得不必要的那个工具”。

发表于：运维

2025-12-12

# access # for # if # Length # linux # nginx # print # python # sort # 字符串 # 工具

复制链接

Linux进程占用CPU过高怎么办_定位与优化流程【指导】

限制并发请求数量的正确实现方式：避免死循环与异步陷阱

Linux 系统性能瓶颈的判断方法

Linux磁盘空间监控方案_提前预警思路解析【指导】

XPath怎么同时选择多种不同名称的节点 path1 | path2

Linux awk脚本入门教程_Linux强大的文本分析工具实例

awk 的基本结构和运行方式

常用实例：从日志和系统命令中快速提取信息

用 BEGIN 和 END 做初始化与汇总

简单条件判断和字符串操作

Go中如何用函数实现策略模式_Go函数式策略模式示例

如何正确获取 Puppeteer 中已存在的页面对象以避免 goto 报错

Python json.tool 模块如何美化非常大的 JSON 文件

如何转置不规则二维数组（锯齿状数组）

VSCode快捷键冲突怎么办_自定义键位绑定与恢复默认

如何使用 Python NLP 库智能截断商品标题至 40 字符以内

HTML5图像位置怎么确定手机端位置不对咋调_手机端适配调整方法【方法】

Composer怎么在Ubuntu上配置全域变量_Linux安装Composer详细过程【介绍】

Django 模板中动态访问嵌套列表元素的正确方法

如何使用 JavaScript 实现多条件复选框表格动态过滤