Linux shell 管道组合高级用法

3次阅读

管道中前一个命令出错不中断后续流程，应使用 || : 显式忽略错误或 set +e 临时关闭退出检查，避免 || true 吞错误码；需注意上游失败导致下游因 EOF 提前退出、缓冲影响输出（如 sed/awk 行尾不刷屏）、多进程写管道易乱序等问题。

默认情况下，set -e 或管道中任意命令失败，整个管道就停在那——但很多时候你只想“尽力而为”，比如批量处理日志时某个文件权限不对，不该卡住后面所有分析。

关键不是绕过错误，而是显式控制错误传播。用 || true 太粗暴，会吞掉错误码；更稳妥的是用 || :（: 是 shell 内置空命令，返回 0），或者直接用 set +e 临时关闭退出检查。

想只忽略某条命令的失败：把 grep pattern file | wc -l 改成 grep pattern file 2>/dev/NULL || : | wc -l
想整段管道都容错：开头加 set +e; ，结尾再 set -e 恢复（注意子 shell 里 set 不影响父 shell）
真实场景常见坑：用 cmd1 | cmd2 | cmd3 时，cmd1 失败会导致 cmd2 收不到输入，但 cmd2 可能因 EOF 立即退出，看起来像“没执行”，其实是被上游掐断了

pv 是最直接的方案，但它不是所有系统默认安装；替代方案是用 tee 分流 + wc -l 计数，但要注意顺序和缓冲问题。

核心矛盾在于：加进度显示不能阻塞或改写原始字节流。所以不能用 cat file | echo "processed $(wc -l)" | ... 这种——echo 会吃掉数据。

安全做法：用 tee >(wc -l >&2) | next_cmd，其中 > (wc -l >&2) 是进程替换，把行数打到 stderr，不影响 stdout 流向 next_cmd
如果没 pv 又不想依赖 bash 扩展，可用 stdbuf -oL tail -f /dev/stdin | wc -l & 配合 tee /dev/tty，但容易乱序
常见错误：用 cat file | while read line; do echo $line; done | wc -l —— 这里 while 是子 shell，wc -l 统计的是 while 的输出，不是原始行数

会，而且非常容易出错。比如 { cmd1; cmd2; } | grep foo 看似并行，其实仍是串行执行；真并行得用 &，但输出混在一起就失去顺序保障。

管道本身是单向字节流，没有“来源标记”。多个进程同时往同一 pipe 写，内核保证每次 write() 原子性（≤ PIPE_BUF 字节），但超过就可能被截断穿插。

安全并行：用 parallel --line-buffer，它自动加锁和缓冲，或用命名管道 mkfifo 配合 cat 聚合
简单场景可接受的折中：cmd1 > tmp1 & cmd2 > tmp2 & wait; cat tmp1 tmp2 | process，牺牲一点实时性换确定性
典型翻车现场：写监控脚本时用 ps aux | grep nginx & ps aux | grep mysql 直接丢进管道——两个 ps 输出时间点不同，字段对不齐，awk '{print $2}' 会取错列

因为缓冲。默认情况下，sed 和 awk 对管道输入使用全缓冲（block buffering），等满 4KB 或遇到 EOF 才刷出；而有些程序（如 tail -f）永远不发 EOF，导致你一直看不到结果。

强制行缓冲：用 stdbuf -oL 包裹，例如 tail -f access.log | stdbuf -oL awk '{print $1}' | grep -v "404"
sed 特殊情况：用 sed -u（gnu sed）或 sed ''（某些 BSD sed）启用无缓冲模式
最容易忽略的一点：即使加了 -u，如果上游命令自己缓存（比如 Python 脚本没设 sys.stdout.flush()），下游照样等——管道是端到端的缓冲链，得每一段都松开

事情说清了就结束

发表于：运维

近两天内

复制链接

使用OpenCV实现旋转与尺度不变的模板匹配计数

mysql如何使用select sum计算总和_mysql聚合查询应用