「深度学习一遍过」必修11：优化器的高级使用+学习率迭代策略+分类优化目标定义

来源：网络时间：2024-02-28 00:09

本专栏用于记录关于深度学习的笔记，不光方便自己复习与查阅，同时也希望能给您解决一些关于深度学习的相关问题，并提供一些微不足道的人工神经网络模型设计思路。
专栏地址：「深度学习一遍过」必修篇

1?优化器的高级使用

1.1 基于更新方向

1.1.1?随机梯度下降?SGD 优化算法

1.1.2?momentum 动量法?

1.1.3?Nesterov accelerated gradient 法

3.2 CrossEntropyLoss优化目标

反向传播

为每个参数单独设置选项：

$model.base$ 的参数将会使用 $1e-2$ 的学习率， $model.classifier$ 的参数将会使用 $1e-3$ 的学习率，并且 $0.9$ 的 $momentum$ ?将会被用于所有的参数。

梯度下降算法中，学习率太大，函数无法收敛，甚至发散，如下图。学习率足够小，理论上是可以达到局部最优值的（非凸函数不能保证达到全局最优），但学习率太小却使得学习过程过于缓慢，合适的学习率应该是能在保证收敛的前提下，能尽快收敛。对于深度网络中，参数众多，参数值初始位置随机，同样大小的学习率，对于某些参数可能合适，对另外一些参数可能偏小（学习过程缓慢），对另外一些参数可能太大（无法收敛，甚至发散），而学习率一般而言对所有参数都是固定的，所以无法同时满足所有参数的要求。通过引入 $Momentum$ ?可以让那些因学习率太大而来回摆动的参数，梯度能前后抵消，从而阻止发散。?

1.1.1?随机梯度下降?SGD 优化算法

$params$ ( $iterable$ ) – 待优化参数的 $iterable$ 或者是定义了参数组的 $dict$
$lr$ ( $float$ ) – 学习率
$momentum$ ( $float$ , 可选) – 动量因子（默认： $0$ ）
$weight_decay$ ( $float$ , 可选) – 权重衰减（ $L2$ 惩罚）（默认： $0$ ）
$dampening$ ( $float$ , 可选) – 动量的抑制因子（默认： $0$ ）
$nesterov$ ( $bool$ , 可选) – 使用 $Nesterov$ ?动量（默认： $False$ ）

在某多分类任务中，设置其损失函数、优化器、学习率：

我们可视化后发现，训练集和测试集整体的正确率是呈现上升趋势，训练集的 $loss$ ?呈现下降趋势也没问题，但测试集的 $loss$ ?呈现突然地暴涨而无法收敛，于是我们断定选用 $SGD$ 优化算法，尤其是填入的这几个参数无法阻止模型梯度发散，所以决定换个优化算法试试，具体见下文。

1.1.2?momentum 动量法?

加速SGD，特别是处理高曲率、小但一致的梯度；积累了之前梯度指数级衰减的移动平均，并且继续沿该方向移动。?

如果梯度方向不变，就越发更新的快，反之减弱，当前保证梯度收敛。?

1.1.3?Nesterov accelerated gradient 法

在标准动量方法中添加了一个校正因子?

要求梯度下降更快，更加智能，直接先按照前一次梯度方向更新一步将它作为当前的梯度?

1.2.1 Adam 优化算法

对梯度的一阶和二阶都进行了估计与偏差修正，使用梯度的一阶矩估计和二阶矩估计来动态调整每个参数的学习率。

优点：

对学习率没有那么敏感，学习步长有一个确定的范围，参数更新比较稳。

缺点：

学习率在训练的后期仍然可能不稳定导致无法收敛到足够好的值，泛化能力较差。

$params$ ( $iterable$ ) – 待优化参数的iterable或者是定义了参数组的? $dict$
$lr$ ?( $float$ , 可选) – 学习率（默认： $1e-3$ ）
$betas$ ?( $Tuple$ ?[ $float$ , $float$ ], 可选) – 用于计算梯度以及梯度平方的运行平均值的系数（默认： $0.9$ ， $0.999$ ）
$eps$ ?( $float$ , 可选) – 为了增加数值计算的稳定性而加到分母里的项（默认： $1e-8$ ）
$weight\: \: decay$ ?( $float$ , 可选) – 权重衰减（ $L2$ ?惩罚）（默认: $0$ ）