Python文件路径遍历_os.walk使用

7次阅读

os.walk是python遍历目录树最常用工具,返回(路径,子目录列表,文件列表)三元组;支持筛选文件、跳过目录、限制深度,但需注意异常处理、路径拼接安全及避免遍历时修改目录结构。

Python文件路径遍历_os.walk使用

os.walk 是 Python 中遍历目录树最常用、最简洁的工具,它能自动递归访问指定路径下的所有子目录和文件,无需手动处理层级关系。

基本用法:一次获取三层信息

调用 os.walk(top) 会返回一个生成器,每次迭代产生一个三元组:
(当前目录路径, 子目录名列表, 文件名列表)

  • 当前目录路径(字符串):如 './data'
  • 子目录名列表(字符串列表):不含路径,仅文件夹名,如 ['2023', '2024']
  • 文件名列表(字符串列表):同上,仅文件名,如 ['report.txt', 'config.json']

常见遍历场景与写法

多数需求围绕“找文件”或“处理文件”,推荐按需筛选:

  • 遍历所有 .py 文件
    for root, dirs, files in os.walk('src'):<br>  for file in files:<br>    if file.endswith('.py'):<br>      print(os.path.join(root, file))
  • 跳过特定目录(如 __pycache__)
    循环中修改 dirs 列表(注意是就地修改):
    if '__pycache__' in dirs:<br>  dirs.remove('__pycache__')
  • 只进指定深度的子目录:用计数器控制,例如限制最多进入 2 层:
    for root, dirs, files in os.walk('base'):<br>  depth = root[len('base'):].count(os.sep)<br>  if depth >= 2:<br>    dirs.clear()  # 清空 dirs 阻止继续深入

注意事项与替代建议

os.walk 默认按字典序遍历,且不捕获异常(如权限不足目录会直接报错中断)。如需健壮性:

立即学习Python免费学习笔记(深入)”;

  • try/except OSError 包裹整个循环体
  • 若只需匹配文件,pathlib.Path.rglob 更现代简洁:
    from pathlib import Path<br>p = Path('src')<br>for py_file in p.rglob('*.py'):<br>  print(py_file)
  • 避免在遍历时修改正在遍历的目录结构(如删除当前目录),可能导致行为未定义

路径拼接别手写斜杠

遍历中得到的 rootfile 都是相对或绝对片段,务必用 os.path.join(root, file)Path(root) / file 拼接,不要用 root + '/' + file——跨平台不安全,windows 下会出错。

text=ZqhQzanResources