python智能文件归档核心是“识别规则+分类动作+安全执行”,通过文件类型、时间戳、文件名关键词三类规则分类,并内置预览、去重、备份与日志等安全机制。

Python实现智能文件自动归档,核心在于“识别规则 + 分类动作 + 安全执行”。不依赖复杂ai,靠清晰的命名/时间/类型规则就能高效运转。
一、按文件类型与扩展名归档
这是最基础也最稳定的归档依据。通过pathlib.Path.suffix或os.path.splitext()提取后缀,映射到目标目录:
- 图片类(.jpg, .png, .heic)→ ./Archive/Pictures/
- 文档类(.pdf, .docx, .xlsx)→ ./Archive/Documents/
- 压缩包(.zip, .rar, .7z)→ ./Archive/Archives/
建议用字典预定义规则:EXT_MAP = {'.pdf': 'Documents', '.jpg': 'Pictures', ...},避免硬编码if链。
二、按创建/修改时间自动分层归档
让工具“懂时间”:把文件归入2024/06/或2024/Q2这样的路径,便于长期追溯。
立即学习“Python免费学习笔记(深入)”;
- 用
path.stat().st_ctime或.st_mtime获取时间戳 - 转为
datetime后格式化:dt.strftime('%Y/%m')或f"{dt.year}/Q{(dt.month-1)//3 + 1}" - 注意:windows创建时间可能不准,优先用修改时间(
st_mtime)
三、按文件名关键词触发智能分类
适合有命名习惯的场景,比如“合同_20240520_v2.pdf”、“周报-技术部-202406.xlsx”。
- 用正则匹配关键词:
re.search(r'合同|协议|NDA', name)→ 归入Legal/ - 匹配日期片段:
re.search(r'd{8}', name)提取并用于时间归档 - 建议关键词规则单独存为jsON或配置文件,方便非程序员调整
四、安全执行:预览、去重、备份与日志
自动归档最怕误操作。必须内置防护机制:
- 预运行模式:加
--dry-run参数,只打印将要移动的文件,不真实执行 - 防覆盖:目标路径存在同名文件时,自动重命名(如
report(1).pdf)或跳过 - 轻量备份:对重要目录(如Desktop),可先复制元数据(用
shutil.copy2保留时间戳)再移动 - 记录日志:用
Logging模块写入archive.log,包含时间、源路径、目标路径、是否成功
脚本结构推荐分三层:配置区(规则字典/路径)、核心函数(classify_file(), move_safely())、主流程(遍历+过滤+执行+日志)。不复杂但容易忽略细节——关键是先跑dry-run,确认逻辑无误再放开自动执行。