PyTorch中神经网络拟合圆形坐标平方和的收敛性优化

29次阅读

本教程旨在解决使用PyTorch神经网络拟合二维坐标 (x, y) 到其平方和 (x^2 + y^2) 时的收敛性问题。文章将深入探讨初始网络结构中存在的非线性表达能力不足、输入数据尺度不一以及超参数配置不当等常见挑战，并提供一套系统的优化策略，包括引入非线性激活函数、进行输入数据标准化以及精细调整训练周期和批处理大小，以显著提升模型的训练效率和拟合精度。

问题阐述：拟合圆形坐标平方和的挑战

我们的目标是构建一个pytorch神经网络，使其能够接收一个包含二维坐标 [x, y, 1] 的输入，并输出 x 和 y 的平方和 (x^2 + y^2)。这是一个典型的回归问题，但由于输出是非线性的二次函数，对神经网络的结构和训练策略提出了要求。

初始尝试的PyTorch代码如下所示：

import torch import torch.nn as nn import numpy as np from torch.utils.data import TensorDataset, DataLoader import torch.optim  # 检查CUDA可用性 device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")  # 准备数据 features = torch.tensor([[8.3572,-11.3008,1],[6.2795,-12.5886,1],[4.0056,-13.4958,1]                          ,[1.6219,-13.9933,1],[-0.8157,-14.0706,1],[-3.2280,-13.7250,1]                          ,[-5.5392,-12.9598,1],[-7.6952,-11.8073,1],[-9.6076,-10.3035,1],                          [-11.2532,-8.4668,1],[-12.5568,-6.3425,1],[-13.4558,-4.0691,1],                          [-13.9484,-1.7293,1],[-14.0218,0.7224,1],[-13.6791,3.1211,1],                          [-12.9064,5.4561,1],[-11.7489,7.6081,1],[-10.2251,9.5447,1],                          [5.4804,12.8044,1],[7.6332,11.6543,1],[9.5543,10.1454,1],                          [11.1890,8.3117,1],[12.4705,6.2460,1],[13.3815,3.9556,1],                          [13.8733,1.5884,1],[13.9509,-0.8663,1],[13.6014,-3.2793,1],                          [12.8572,-5.5526,1],[11.7042,-7.7191,1],[10.1761,-9.6745,1],                          [-8.4301,11.1605,1],[-6.3228,12.4433,1],[-4.0701,13.3401,1],                          [-1.6816,13.8352,1],[0.7599,13.9117,1],[3.1672,13.5653,1]]).to(device) labels = [] for i in range(features.shape[0]):     label=(features[i][0])**2+(features[i][1])**2     labels.append(label) labels = torch.tensor(labels).to(device)  # 定义网络结构（初始版本） num_input ,num_hidden,num_output = 3,64,1 net = nn.Sequential(     nn.Linear(num_input,num_hidden),     nn.Linear(num_hidden,num_output) ).to(device)  # 权重初始化 def init_weights(m):     if type(m) == nn.Linear:         nn.init.xavier_normal_(m.weight) net.apply(init_weights)  loss = nn.MSELoss() num_epochs = 10 batch_size = 6 lr=0.001 trainer = torch.optim.RAdam(net.parameters(),lr=lr) dataset = TensorDataset(features,labels) data_loader = DataLoader(dataset,batch_size=batch_size,shuffle=True)  print("初始训练过程中的损失：") for i in range (num_epochs):     for X,y in data_loader:         y_hat = net(X)         l = loss(y_hat,y.reshape(y_hat.shape))         trainer.zero_grad()         l.backward()         trainer.step()     with torch.no_grad():         print(f"Epoch {i+1}, Loss: {l.item():.4f}")

运行上述代码会发现，模型的损失值很高，且几乎无法收敛，这意味着网络未能有效地学习到 x^2 + y^2 这一关系。

收敛性问题分析

导致上述模型收敛困难的原因主要有以下几点：

缺乏非线性激活函数： 初始网络结构 nn.Sequential(nn.Linear(…), nn.Linear(…)) 仅由两个线性层组成。在没有非线性激活函数的情况下，无论堆叠多少个线性层，整个网络最终都等效于一个单一的线性变换。然而，我们要拟合的目标函数 x^2 + y^2 是一个典型的非线性函数，线性模型无法对其进行有效近似。
输入数据尺度不一： 原始的 x 和 y 坐标值范围较大，且没有经过标准化处理。这可能导致梯度在不同维度上大小不一，使得优化器难以有效地找到最优解，容易陷入局部最优或导致训练过程不稳定。
超参数配置不当： 初始的训练周期 num_epochs = 10 和批处理大小 batch_size = 6 对于学习这样一个非线性函数可能不足以使模型充分学习或稳定收敛。

优化策略一：引入非线性激活函数

为了使神经网络能够学习非线性关系，我们必须在网络层之间引入非线性激活函数。对于多层感知机（MLP），常用的激活函数包括ReLU（Rectified Linear Unit）、Sigmoid、Tanh等。在这里，我们选择 ReLU，它计算简单且能有效缓解梯度消失问题。

将 nn.ReLU() 添加到第一个线性层之后，网络结构将变为： nn.Sequential(nn.Linear(num_input, num_hidden), nn.ReLU(), nn.Linear(num_hidden, num_output))。

优化策略二：数据预处理——标准化输入

数据标准化是深度学习中的一项关键预处理步骤，它能将不同尺度的特征转换到相似的范围内。常用的方法是Z-score标准化（也称作均值-标准差标准化），即将数据调整为均值为0、标准差为1的分布。这有助于：

神卷标书

神卷标书，专注于AI智能标书制作、管理与咨询服务，提供高效、专业的招投标解决方案。支持一站式标书生成、模板下载，助力企业轻松投标，提升中标率。

5

查看详情

加速收敛： 使得损失函数的等高线更接近圆形，优化器（如梯度下降）可以更直接地向最小值移动，而不是在“狭长”的区域内震荡。
防止梯度爆炸/消失： 确保所有输入特征对模型权重的更新具有相似的影响，避免某些特征因数值过大而主导梯度，或因数值过小而导致梯度消失。

对于我们的 features 数据，x 和 y 坐标位于前两列，第三列是常数 1。我们只需要对 x 和 y 进行标准化。

# 数据标准化 mean = features[:,:2].mean(dim=0) std = features[:,:2].std(dim=0) features[:,:2] = (features[:,:2] - mean) / (std + 1e-5) # 添加一个小的epsilon防止除以零

优化策略三：超参数调优

适当的超参数配置对模型训练的成功至关重要。

增加训练周期 (num_epochs)： 初始的10个训练周期对于模型学习复杂的非线性模式通常是不够的。增加训练周期可以让模型有更多机会迭代更新权重，从而更好地拟合数据。我们将 num_epochs 增加到100。
```
num_epochs = 100 # 增加训练周期
```
调整批处理大小 (batch_size)： 批处理大小会影响梯度估计的稳定性和训练速度。较小的 batch_size（例如2）可以提供更频繁的权重更新，每次更新的梯度估计可能噪声更大，但在某些情况下能帮助模型跳出局部最优，或在数据集较小时表现更好。
```
batch_size = 2 # 调整批处理大小
```

整合优化后的完整代码

将上述所有优化策略整合到原始代码中，得到一个更健壮、更易收敛的PyTorch训练脚本。

 import torch import torch.nn as nn import numpy as np from torch.utils.data import TensorDataset, DataLoader import torch.optim  # 检查CUDA可用性 device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")  # 原始数据 features_raw = torch.tensor([[8.3572,-11.3008,1],[6.2795,-12.5886,1],[4.0056,-13.4958,1]                          ,[1.6219,-13.9933,1],[-0.8157,-14.0706,1],[-3.2280,-13.7250,1]                          ,[-5.5392,-12.9598,1],[-7.6952,-11.8073,1],[-9.6076,-10.3035,1],                          [-11.2532,-8.4668,1],[-12.5568,-6.3425,1],[-13.4558,-4.0691,1],                          [-13.9484,-1.7293,1],[-14.0218,0.7224,1],[-13.6791,3.1211,1],                          [-12.9064,5.4561,1],[-11.7489,7.6081,1],[-10.2251,9.5447,1],                          [5.4804,12.8044,1],[7.6332,11.6543,1],[9.5543,10.1454,1],                          [11.1890,8.3117,1],[12.4705,6.2460,1],[13.3815,3.9556,1],                          [13.8733,1.5884,1],[13.9509,-0.8663,1],[13.6014,-3.2793,1],                          [12.8572,-5.5526,1],[11.7042,-7.7191,1],[10.1761,-9.6745,1],                          [-8.4301,11.1605,1],[-6.3228,12.4433,1],[-4.0701,13.3401,1],                          [-1.6816,13.8352,1],[0.7599,13.9117,1],[3.1672,13.5653,1]]).to(device)  # 创建可变副本进行标准化 features = features_raw.clone().detach()  # 数据标准化：对x, y坐标进行均值-标准差标准化 mean = features[:,:2].mean(dim=0) std = features[:,:2].std(dim=0) features[:,:2] = (features[:,:2] - mean) / (std + 1e-5) # 添加一个小的epsilon防止除以零  # 计算标签 (labels不需要标准化，因为它们是目标输出) labels = [] for i in range(features_raw.shape[0]): # 注意：标签基于原始数据计算     label=(features_raw[i][0])**2+(features_raw[i][1])**2     labels.append(label) labels = torch.tensor(labels).to(device)  # 定义网络结构（优化版本：添加ReLU激活函数） num_input ,num_hidden,num_output = 3,64,1 net = nn.Sequential(     nn.Linear(num_input,num_hidden),     nn.ReLU(), # 引入非线性激活函数     nn.Linear(num_hidden,num_output) ).to(device)  # 权重初始化 def init_weights(m):     if type(m) == nn.Linear:         nn.init.xavier_normal_(m.weight)         # 偏置项通常初始化为0或小常数，nn.Linear默认已处理 net.apply(init_weights)  loss = nn.MSELoss()  # 超参数调优 num_epochs = 100 # 增加训练周期 batch_size = 2   # 调整批处理大小 lr=0.001 trainer = torch.optim.RAdam(net.parameters(),lr=lr) dataset = TensorDataset(features,labels) data_loader = DataLoader(dataset,batch_size=batch_size,shuffle=True)  print("n优化后的训练过程中的损失：") for epoch in range (num_epochs):     for X,y in data_loader:         y_hat = net(X)         l = loss(y_hat,y.reshape(y_hat.shape))         trainer.zero_grad()         l.backward()         trainer.step()     with torch.no_grad():         if (epoch + 1) % 10 == 0 or epoch == 0: # 每10个epoch打印一次，以及第1个epoch             print(f"Epoch {epoch+1}, Loss: {l.item():.4f}")  # 训练结束后，可以进行模型评估或预测 # 示例：使用训练后的模型对部分数据进行预测 net.eval() # 将模型