Python 边缘设备上的模型剪枝与量化

2次阅读

剪枝不加速因边缘引擎默认不利用稀疏性；需结构化剪枝+运行时支持稀疏kernel；量化前须 propagate_qconfig 并为各子模块设 qconfig，qat 中注意 train/eval 模式切换。

模型剪枝后 `torch.nn.Conv2d` 层权重变稀疏，但部署到边缘设备没提速？

剪枝本身不等于加速——多数边缘推理引擎（如 TFLite、ONNX Runtime for ARM）默认不利用稀疏权重，prune.l1_unstructured 或 prune.random_structured 产生的稀疏张量仍按稠密方式加载和计算。

真正起效的前提是：目标运行时支持结构化剪枝 + 后端启用稀疏 kernel。例如 TVM 可识别 prune.custom_from_mask 导出的掩码并生成跳过零块的调度，但 Raspberry Pi 上的 NCNN 就完全忽略稀疏性。

优先用 prune.ln_structured（n=2），保证通道级剪枝，便于编译器做 channel-wise 消除
剪枝后必须调用 prune.remove，否则 model.state_dict() 里仍是带 _mask 的伪稀疏参数
导出前用 torch.jit.trace 而非 torch.jit.script，后者可能保留未被剪掉的分支逻辑

量化时 `torch.quantization.convert` 报错 `AttributeError: 'ConvBn2d' Object has no attribute 'qconfig'`

这是典型流程断点：pytorch 量化要求模型先经过 torch.quantization.prepare 插入 observer，而 observer 依赖各子模块显式设置了 qconfig。没设或设在错误位置（比如只设了 model.qconfig，但没递归设到 model.features[0].conv），就会在 convert 阶段崩。

别只在顶层调 model.qconfig = get_default_qconfig('fbgemm')，补上 torch.quantization.propagate_qconfig_(model)
自定义模块（如含 nn.Sequential 嵌套）要手动遍历子模块，对每个 Conv2d/Linear 单独赋 qconfig
如果用 QAT，训练中必须调 model.train()，否则 observer 不更新；转推理前必须 model.eval()，否则 convert 会跳过部分模块

INT8 量化后精度掉太多，`torch.quantization.default_observer` 不适合小数据集

默认 observer 基于滑动窗口统计激活值分布，小样本（

立即学习“Python免费学习笔记（深入）”；

换用 MinMaxObserver（静态范围），在 calibration 阶段跑满一个 mini-batch（建议 ≥128 样本）再冻结统计
对输出层（如分类 head）单独禁用量化：model.classifier[1].qconfig = None，避免 softmax 输入畸变
如果输入是 uint8 图像（OpenCV 默认），别直接喂给量化模型——先转 float32 再归一化，否则 quantize_per_tensor 会把 0–255 当作原始范围误算

导出为 ONNX 后在边缘设备上 `RuntimeError: Unsupported data type: int8`

ONNX 标准本身支持 INT8，但具体执行器是否支持，取决于算子版本和 backend 实现。比如 ONNX Runtime 1.10+ 的 ARM64 CPU provider 才开始实验性支持 QLinearConv，而旧版只认 Conv + 外挂 quantize/dequantize node。

导出时加 do_constant_folding=True，否则量化参数可能以 placeholder 形式残留，导致 runtime 解析失败
避开 torch.quantization.quantize_dynamic，它生成的 ONNX 没有真实量化算子，只是 float32 模拟，边缘设备无法识别
用 onnx.checker.check_model 验证后，再用 onnx.shape_inference.infer_shapes 补全 tensor shape，某些轻量 runtime（如 MNN）依赖 shape 推断做内存预分配

边缘设备上模型优化不是“剪完再量化”就能跑通，每一步都卡在软硬协同的缝隙里：剪枝结构得匹配硬件访存模式，量化 scale 得贴合实际输入分布，导出格式得对齐 runtime 的算子支持表。漏掉任意一环，模型体积小了，但延迟反而更高。

发表于：后端开发

近一天内

复制链接

Go 语言并发教程中输出延迟的真相：浏览器环境下的缓冲显示 Bug

Python数字运算技巧_性能优化解析【教程】

Python中从绝对路径获取特定格式相对路径的技巧

c# Saga模式和两阶段提交在c#中的实现

C++怎么使用模板_C++泛型编程教程【高级】

Python 边缘设备上的模型剪枝与量化

模型剪枝后 `torch.nn.Conv2d` 层权重变稀疏，但部署到边缘设备没提速？

量化时 `torch.quantization.convert` 报错 `AttributeError: 'ConvBn2d' Object has no attribute 'qconfig'`

INT8 量化后精度掉太多，`torch.quantization.default_observer` 不适合小数据集

导出为 ONNX 后在边缘设备上 `RuntimeError: Unsupported data type: int8`

大量残留 network namespace 的 ip netns delete 批量脚本

C++中future和promise怎么用_C++多线程间值传递异步操作【并发】

PHP如何跨服务器同步文件夹_PHP远程同步文件夹【指南】

Linux 内核在系统运行中承担了哪些核心职责

React 中 map 方法不渲染列表？根本原因与正确状态更新实践

SQL 级联视图（cascading view）的可维护性与调试难度评估

SQL 存储函数创建与应用案例

SQL 单列索引与复合索引设计方法

php函数中unset会影响作用域吗_php函数unset作用范围【说明】

php匿名函数怎么定义_php匿名函数定义方式【语法】

Python 边缘设备上的模型剪枝与量化

模型剪枝后 torch.nn.Conv2d 层权重变稀疏，但部署到边缘设备没提速？

量化时 torch.quantization.convert 报错 AttributeError: 'ConvBn2d' Object has no attribute 'qconfig'

INT8 量化后精度掉太多，torch.quantization.default_observer 不适合小数据集

导出为 ONNX 后在边缘设备上 RuntimeError: Unsupported data type: int8

模型剪枝后 `torch.nn.Conv2d` 层权重变稀疏，但部署到边缘设备没提速？

量化时 `torch.quantization.convert` 报错 `AttributeError: 'ConvBn2d' Object has no attribute 'qconfig'`

INT8 量化后精度掉太多，`torch.quantization.default_observer` 不适合小数据集

导出为 ONNX 后在边缘设备上 `RuntimeError: Unsupported data type: int8`