Python 模型蒸馏的知识蒸馏实践

1次阅读

应根据教师输出选择损失：若为概率分布则用kl散度，需教师softmax后取log、学生log_softmax；若为logits则可用mse但丢失温度平滑效应；kl在小数据或类别不平衡时更稳，但需梯度裁剪。

Python 模型蒸馏的知识蒸馏实践

看教师模型输出的是概率分布还是 logits —— 如果用 torch.nn.KLDivLoss，必须确保学生模型也经过 log_softmax，而教师输出是 softmax；直接拿 raw logits 算 MSE 虽简单，但温度系数 T 没起作用，软标签的平滑效应就丢了。

常见错误：把教师的 logits 直接喂给 KLDivLoss，报错 Expected input tensor to have log probabilities
正确链路：教师 logits / T → softmax → log()，学生 logits / T → log_softmax，再进 KLDivLoss
小数据或类别不平衡时，KLDivLoss 通常比 MSELoss 更稳；但训练初期梯度可能爆炸，建议搭配 torch.nn.utils.clip_grad_norm_

不是只加 with torch.no_grad(): 就够了 —— 如果教师模型里有 BatchNorm 层，它默认会继续更新 running_mean / running_var，导致蒸馏过程中的统计量漂移，学生学的其实是“动起来的教师”。

必须显式调用 teacher.eval()，哪怕你没开 dropout
如果教师用了 SyncBatchNorm 或自定义 BN，还要确认是否在多卡下被 torch.nn.parallel.DistributedDataParallel 包裹，此时 eval() 可能不生效
更稳妥的做法：在蒸馏循环开头加 teacher.train(False)，并手动冻结 BN 参数：for m in teacher.modules(): if isinstance(m, torch.nn.BatchNorm2d): m.track_running_stats = False

temperature 不是越大越好。设成 20，教师输出几乎变成均匀分布，学生学不到区分性；设成 1，软标签和硬标签没区别，蒸馏失去意义。

要，而且不能简单加权平均。学生模型如果只学软标签，会在验证集上出现“高置信、低准确”现象 —— 对教师认为模糊的样本过度自信。

标准做法是混合 loss：total_loss = alpha * ce_loss(student_logits, labels) + (1 - alpha) * kl_loss(student_log_soft, teacher_soft)
alpha 别设成 0.5：初始阶段建议 0.2~0.3，等学生 logits 接近教师后再逐步提高到 0.5
如果下游任务 label 噪声大（比如弱监督数据），可把 ce_loss 换成 label_smoothing=0.1 的版本，避免学生过拟合错误硬标签

事情说清了就结束。真正难的不是调通蒸馏流程，而是发现学生模型在某个子集上始终比教师差 —— 这时候得回过头看教师自己在这个子集上的预测是否稳定，而不是急着改 loss 权重。

发表于：web前端

近一天内

复制链接

mysql如何配置my.cnf_mysql配置文件设置说明

PHP 中实现向下舍入到百位（第二位十进制精度）的通用方法