如何在 PyTorch 中让梯度通过 torch.min 函数正确反向传播

3次阅读

本文详解如何在 pytorch 中实现对非张量标量（如 Python int/Float）参与的 min 运算保留梯度流，核心是避免使用 torch.tensor([…]) 破坏计算图，而应采用链式 tensor.min(other) 方法，并理解其梯度行为。

本文详解如何在 pytorch 中实现对非张量标量（如 python int/float）参与的 `min` 运算保留梯度流，核心是避免使用 `torch.tensor([…])` 破坏计算图，而应采用链式 `tensor.min(other)` 方法，并理解其梯度行为。

在 PyTorch 中，torch.min() 本身支持梯度传播，但前提是输入必须处于同一计算图中。常见错误是将可导张量与 Python 原生数值（如 int、float）直接拼接为新张量，例如 torch.tensor([a, b, c]) —— 此操作会创建一个无梯度历史的新张量，彻底切断 a 的计算图，导致 d.requires_grad == False。

✅ 正确做法是：将标量转换为同设备、同 dtype 的 torch.Tensor，再通过链式调用 a.min(b).min(c) 实现逐元素比较。PyTorch 的 Tensor.min(other) 方法支持广播与自动梯度，且仅对当前最小值所在位置赋予梯度 1.0，其余位置梯度为 0。

以下为完整可运行示例：

import torch  # 初始化：a 是需求导的张量；b、c 为标量，需转为 tensor 以接入计算图 a = torch.tensor([4.0], requires_grad=True) b = torch.tensor([5.0])  # 注意：不是 Python int，而是 torch.Tensor c = torch.tensor([6.0])  # ✅ 正确：梯度可穿透 min 操作 d = a.min(b).min(c)  # 等价于 torch.min(torch.min(a, b), c) print(f"d = {d.item()}, d.requires_grad = {d.requires_grad}")  # d = 4.0, True  d.backward() print(f"a.grad = {a.grad}")  # tensor([1.])

⚠️ 关键注意事项：

标量必须显式转为 torch.Tensor：b = 5 或 b = torch.tensor(5)（标量张量）均可，但 torch.tensor([a, b, c]) 中若 b/c 是 Python 原生类型，会触发隐式转换并丢失梯度依赖。
梯度行为是“选择性传递”：min 的梯度函数定义为： [ frac{partial min(x, y)}{partial x} = begin{cases} 1 & text{if } x y text{undefined (通常取 0.5 或按框架实现)} & text{if } x = y end{cases} ] 因此，当 a 不是实际最小值时（如 a=6.0, b=5.0），a.grad 将为 0 —— 这是数学上正确的子梯度（subgradient），但意味着该路径无优化信号。

多变量 min 推荐写法：对于 min(a, b, c, d)，推荐 a.min(b).min(c).min(d) 或封装为函数：

def safe_min(*tensors):     res = tensors[0]     for t in tensors[1:]:         res = res.min(t)     return res d = safe_min(a, b, c)

总结：要使梯度通过 min，本质是保持所有参与运算的变量在同一计算图内。避免 torch.tensor([…]) 构造中间张量，改用原位 Tensor.min() 链式调用，并确保所有输入均为 torch.Tensor 类型。理解 min 的梯度稀疏性（仅激活最小值来源）有助于调试训练不稳定或梯度消失问题。

发表于：开发工具

近三天内

复制链接

composer怎么处理“Package … is not compatible with this version of PHP”_说明解决依赖与PHP版本不兼容问题

VSCode的Bracket Pair Colorization特性详解

sublime怎么和wsl(windows subsystem for linux)集成_sublime与WSL环境联动配置指南

vscode同步插件支持同步代码片段库吗_vscode代码片段库同步功能说明

PHP 数据库多租户架构实现方式

如何在 PyTorch 中让梯度通过 torch.min 函数正确反向传播

php创建文件内容加密存储怎做_php加密创文件法【技巧】

SQL 控制流语句复杂逻辑实现

币安Binance官网登录入口币安Binance交易所官方app下载地址

如何在Golang中使用私有包_Golang私有包配置与使用技巧

如何在Golang中操作Map实现增删改查 Go语言字典类型详解

Python生成器与列表区别_内存消耗对比

PHP中include和require区别是什么_PHP文件引入差异说明【详解】

全仓交易的最大风险是什么_如何避免 Web3 连环爆仓

HTML5 表单中匹配末尾六位数字的正则表达式详解

PHP中global关键字怎么用_PHP全局变量访问说明【解答】