Linux tar 命令高级用法

3次阅读

tar解压默认不保留权限和所有者,需加-p保留权限、–same-owner(root下)还原uid/gid;–exclude和–wildcards匹配归档内路径而非执行路径;提速用zstd或pigz;筛选文件用–wildcards更高效。

Linux tar 命令高级用法

tar 解压时保留原始权限和所有者信息,但实际没生效?

默认 tar 解压会丢掉文件所有者、组、特殊权限(如 setuid),尤其在非 root 用户下解压或跨系统传输后。这不是 bug,是安全默认行为。

必须显式加 -p(preserve permissions)才能还原:tar -xpf archive.tar。注意:仅加 -p 不够——如果目标系统没有对应 UID/GID,所有者仍会变成当前用户;真正还原所有者需配合 --same-owner(且需 root 权限)。

  • -p 保留读写执行权限、sticky bit、setuid/setgid 位
  • --same-owner 尝试还原原始 UID/GID,普通用户运行会静默失败,不报错也不生效
  • 跨平台(如从 macos 打包到 linux)时,ACL 和扩展属性(xattrs)默认不保存,需额外加 --acls--xattrs

想排除某些文件或目录,但 --exclude 总是不生效?

--exclude 匹配的是归档内路径(即打包时的相对路径),不是你当前执行命令时的路径。常见错误是写成绝对路径或带 ./ 前缀。

例如,打包时在 /home/user/project 下运行 tar -cf app.tar .,那么归档内路径就是 src/main.cnode_modules/ 这样的形式。排除应写成:tar --exclude='node_modules' --exclude='*.log' -cf app.tar .

  • 通配符支持 *?[...],但不支持 ** 递归匹配
  • 多个 --exclude 可重复使用,顺序无关
  • 路径匹配区分大小写,且必须与归档内路径完全一致(--exclude='logs' 不会匹配 ./logs/,要写成 --exclude='logs'--exclude='./logs',取决于打包时路径写法)

tar -z 压缩大文件,为什么比 gzip 单独跑还慢?

tar -z 是调用外部 gzip 进程管道压缩,本身不并行。而现代 gzip 默认单线程,瓶颈在 CPU;但更关键的是,tar 必须串行读取所有文件再喂给 gzip,无法重叠 I/O 与压缩。

  • 提速首选 zstd:用 tar --zstd -cf archive.tar.zst dir/,压缩比和速度通常优于 gzip,且原生支持多线程
  • 若坚持用 gzip,可先打包再压缩:tar -cf - dir/ | pigz -c > archive.tar.gzpigz 是并行 gzip)
  • tar -J(xz)压缩率高但极慢,适合归档不常读取的数据;tar -Z(compress)已过时,避免使用

如何只查看 tar 包里某个子目录下的文件,而不解压?

直接 tar -tf 列出全部内容效率低,尤其包很大时。可用 --wildcards 配合模式匹配快速筛选:

tar -tf archive.tar --wildcards 'src/*.py'

这比用 grep 管道过滤更快,因为 tar 在读取索引时就跳过不匹配项(前提是格式支持,gnu tar 可靠,BSD tar 有限制)。

  • 模式中 * 匹配任意字符(含 /),** 不被支持
  • 路径区分大小写,且必须与归档内路径结构一致(比如包里是 app/src/,就不能用 'src/*' 匹配)
  • 如果只想看是否存在某文件,加 -q(quiet)可提前退出:tar -tf archive.tar --wildcards 'config.yaml' -q,返回 0 表示存在

实际用 tar 处理生产归档时,最容易忽略的是路径匹配的“上下文”——它永远以归档内部路径为准,和你在哪执行命令、当前工作目录在哪,完全无关。这点不厘清,--exclude--wildcards 就总像在赌运气。

text=ZqhQzanResources