Python pathlib.Path 如何递归获取所有 .py 文件(不使用 os.walk)

10次阅读

rglob是首选方案,因其为pathlib内置递归glob方法,语义明确、跨平台稳定、内存友好且语法简洁;需配合try/except处理权限错误,用p.suffix.lower()兼容大小写,通过p.parts过滤排除目录。

Python pathlib.Path 如何递归获取所有 .py 文件(不使用 os.walk)

pathlib.Path.rglob 为什么是首选方案

rglobpathlib.Path 内置的递归 glob 方法,专为替代 os.walk 设计。它返回一个生成器,延迟遍历,内存友好,且语法简洁。不用手动处理目录层级、过滤逻辑或异常跳过——只要路径存在且可读,它就自动往下钻。

常见错误是写成 path.glob("**/*.py"):这其实也能工作,但 **glob 中不保证跨平台递归(尤其在旧版 python 或某些文件系统上行为不一致),而 rglob 明确语义、稳定支持所有平台。

  • 必须用 rglob,不是 glob
  • 模式字符串直接写 "*.py" 即可,rglob 默认从当前路径向下全递归
  • 如果只想搜子目录(不含当前目录),可用 path.joinpath("**").rglob("*.py"),但通常不需要

如何正确处理权限不足或符号链接循环

rglob 遇到无法访问的目录(如 PermissionError)会直接抛异常,中断整个遍历。这不是 bug,而是默认行为。实际项目中必须捕获并跳过:

from pathlib import Path 

def safe_py_files(root: Path): for p in root.rglob("*.py"): try: if p.is_file(): # 确保是文件,排除可能的 broken symlink yield p except (OSError, RuntimeError): continue # 跳过权限错误、循环软链、设备忙等

  • p.is_file() 必须显式调用,因为 rglob("*.py") 可能匹配到同名目录(极少见但可能)
  • 不要依赖 ignore_errors=True —— rglob 没这个参数,得自己 try/except
  • 符号链接默认被跟随;若需跳过软链,加 if not p.is_symlink()

windows 下大小写敏感问题怎么破

windows 文件系统默认不区分大小写,但 rglob("*.py") 严格按字面匹配。如果目录里有 SCRIPT.PYmain.Py,它们不会被命中。

立即学习Python免费学习笔记(深入)”;

解决方式不是改模式,而是后过滤:

py_files = [p for p in root.rglob("*") if p.is_file() and p.suffix.lower() == ".py"]
  • "*" 先拉所有文件,再用 p.suffix.lower() 判断,兼容所有大小写变体
  • 性能略低(遍历更多条目),但比写多个模式("*.py", "*.PY", "*.Py"…)干净得多
  • linux/macOS 下也建议统一用这种写法,避免跨平台差异

想排除 __pycache__ 和 venv 目录怎么办

rglob 本身不支持排除路径,得靠 Python 层过滤。最简方式是检查 p.parent 名称:

excludes = {"__pycache__", "venv", ".venv", "env"} py_files = [     p for p in root.rglob("*.py")     if p.is_file() and all(part not in excludes for part in p.parts) ]
  • p.parts 返回路径各段元组(如 PosixPath("/a/b/venv/lib/site.py").parts == ('/', 'a', 'b', 'venv', 'lib', 'site.py')),比用 str(p) 正则更可靠
  • 注意 venv 可能出现在任意层级,所以要检查全部 part,不能只看 p.parent.name
  • 如果项目用 Poetry 或 Pipenv,可额外加入 ".poetry"、".pipenv"

实际递归找 .py 文件,核心就三件事:用对 rglob、兜住 OSError、按需处理大小写和排除目录。细节都在路径对象自己的方法里,不用引入额外模块,但每一步漏掉都可能在 CI、docker 或 Windows 上突然出问题。

text=ZqhQzanResources