python静态分析工具核心是解析源码生成AST并遍历分析,而非字符串扫描;通过ast.nodeVisitor提取结构信息,结合作用域跟踪和语义规则检测未使用变量、硬编码密码等问题,支持插件化规则与配置化扩展。

Python静态分析工具的核心是不运行代码,而是解析源码的语法结构,从中提取变量、函数、类、调用关系等信息,再根据预设规则判断潜在问题。关键不在“扫描字符串”,而在“理解代码结构”。
理解AST:静态分析的基石
Python把源码编译成抽象语法树(AST),每个节点代表一种语法成分(如Assign、Call、if)。分析逻辑从ast.parse()开始,得到树根后递归遍历节点。
- 用ast.NodeVisitor子类实现自定义遍历逻辑,重写visit_XXX方法(如visit_Call捕获所有函数调用)
- 注意作用域:函数内定义的变量默认局部,需手动跟踪Assign和Name节点的上下文,或借助ast.scope(3.12+)或第三方库如pylint的符号表机制
- 避免直接操作ast.NodeTransformer做修改——静态分析只需读取,不改源码
识别典型质量问题的模式
规则不是靠正则硬匹配,而是基于AST语义判断。例如检测“未使用的变量”:
- 找到所有Assign节点,提取左侧目标名(可能是Name、Tuple等)
- 在同一作用域内搜索该名字是否作为Name(ctx=Load)出现(即被读取)
- 排除特殊场景:下划线开头(_var)、仅在del中出现、或出现在__all__赋值中
类似地,“硬编码密码”可检查Str或Constant节点是否出现在形如password=…的keyword参数中;“重复导入”则比对Import和ImportFrom节点的模块名与别名。
立即学习“Python免费学习笔记(深入)”;
集成与扩展性设计
一个实用的分析工具应支持规则插件化,而非把所有逻辑写死:
- 每条规则封装为独立类,实现check(node: ast.AST) -> List[issue]接口
- 主分析器统一调用所有启用规则的check方法,合并结果并按文件/行号排序输出
- 配置通过pyproject.toml或.pylintrc风格文件控制开关、阈值(如圈复杂度>10才告警)
- 预留钩子:如before_analysis加载项目依赖信息,用于跨文件调用分析
绕过常见陷阱
真实项目中容易踩坑的点:
- 动态特性干扰:eval、getattr、字符串拼接导入等无法被AST覆盖,需明确标注“此规则不处理动态行为”
- 类型提示混淆:name: str = “x”中的str是Name节点,不是字符串字面量——需区分annotation和value
- 编码与换行:用ast.parse(source, filename)传入文件路径,AST节点自带lineno和col_offset,无需自己算位置
基本上就这些。不复杂但容易忽略细节——盯住AST节点类型和上下文,比追求“扫描快”更重要。