【优化器】(一) SGD原理 & pytorch代码解析

当前位置：主页 > 新闻资讯 > 行业动态

【优化器】(一) SGD原理 & pytorch代码解析！

发布于 2024-04-22 14:46 阅读（）

很多情况下，我们调用优化器的时候都不清楚里面的原理和构造，主要基于自己数据集和模型的特点，然后再根据别人的经验来选择或者尝试优化器。下面分别对SGD的原理、pytorch代码进行介绍和解析。

梯度下降方法可以分为3种，分别是：

BGD (Batch gradient descent)

这种方法是最朴素的梯度下降方法，将全部的数据样本输入网络计算梯度后进行一次更新：

$w^{^{k+1}} =w^{^{k}}-\alpha *\bigtriangledown f(w^{k})$

其中? $w$ 为模型参数， $\bigtriangledown f(w^{k})$ 为模型参数更新梯度， $\alpha$ 为学习率。

这个方法的最大问题就是容易落入局部最优点或者鞍点。

局部最优点很好理解，就是梯度在下降过程中遇到下图的情况，导致在local minimum区间不断震荡最终收敛。

鞍点（saddle point）是指一个非局部极值点的驻点，如下图所示，长得像一个马鞍因此得名。以红点的位置来说，在x轴方向是一个向上弯曲的曲线，在y轴方向是一个向下弯曲的曲线。当点从x轴方向向下滑动时，最终也会落入鞍点，导致梯度为0。

SGD (Stochastic gradient descent)

为了解决BGD落入鞍点或局部最优点的问题，SGD引入了随机性，即将每个数据样本输入网络计算梯度后就进行一次更新：

$w^{^{k+1}} =w^{^{k}}-\alpha *\bigtriangledown f(w^{k};x^{_{i}};y^{_{i}})$

其中? $w$ 为模型参数， $\bigtriangledown f(w^{k};x^{_{i}};y^{_{i}})$ 为一个样本输入后的模型参数更新梯度， $\alpha$ 为学习率。

由于要对每个样本都单独计算梯度，那么相当于引入了许多噪声，梯度下降时就会跳出鞍点和局部最优点。但要对每个样本都计算一次梯度就导致了时间复杂度较高，模型收敛较慢，而且loss和梯度会有大幅度的震荡。

MBGD (Mini-batch gradient descent)

MBGD相当于缝合了SGD和BGD，即将多个数据样本输入网络计算梯度后就进行一次更新：

$w^{^{k+1}} =w^{^{k}}-\alpha *\bigtriangledown f(w^{k};x^{_{i:i+b}};y^{_{i:i+b}})$

其中? $w$ 为模型参数， $\bigtriangledown f(w^{k};x^{_{i:i+b}};y^{_{i:i+b}})$ 为batch size个样本输入后的模型参数更新梯度， $\alpha$ 为学习率。

MBGD同时解决了两者的缺点，使得参数更新更稳定更快速，这也是我们最常用的方法，pytorch代码里SGD类也是指的MBGD（当然可以自己设置特殊的batch size，就会退化为SGD或BGD）。

实际在pytorch的代码中，还加了两个优化，分别是：

Momentum

从原理上可以很好理解，Momentum就是在当前step的参数更新中加入了部分上一个step的梯度，公式表示为：

$v^{k} =\gamma *v^{k-1}-\alpha *\bigtriangledown f(w^{k};x^{_{i:i+b}};y^{_{i:i+b}})$

$w^{^{k+1}} =w^{^{k}}-v^{^{k}}$

其中? $v^{^{k}}$ 和 $v^{^{k-1}}$ 为当前step和上一个step的动量，即当前step的动量会有当前step的梯度和上一个step的动量叠加计算而来，其中 $\gamma$ 一般设置为0.9或者0.99。

我们可以从以下两幅示意图中看到区别，第一张图没有加Momentum，第二张图加了Momentum。可以看到在第一张图中，点一开始往梯度变化的方向移动，但是到后来梯度逐渐变小，到最后变为了0，所以最终没有到达最优点。而第二张图由于加了Momentum，所以点会有一个横向移动的惯性，即使到了梯度为0的地方也能依靠惯性跳出。