关于九游会 联系我们

咨询电话: 020-88888888

当前位置: 主页 > 新闻资讯 > 新政解读

《深度学习》第8章 深度模型中的优化!

发布于 2024-04-07 23:43 阅读(

  1. 使用整个训练集的优化算法被称为批量确定性梯度算法,因为它们会在一个大批量中同时处理所有样本。
  2. 每次只使用单个样本的优化算法有时被称为随机或者在线算法。术语“在线”通常是指从连续产生样本的数据流中抽取样本的情况,而不是从一个固定大小的训练集中遍历多次采样的情况。
  3. 使用一个以上而又不是全部的训练样本,被称为小批量小批量随机方法,现在通常简单地称为随机方法。其典型实例是随机梯度下降法。
  1. 优化中的挑战有:病态;局部极小值;高原、鞍点和其他平坦区域;悬崖和梯度爆炸;长期依赖;非精确梯度;局部和全局结构间的弱对应;优化的理论限制。
  2. 病态问题:病态体现在随机梯度下降会“卡”在某些情况,此时即使很小的更新步长也会增加代价函数。
  3. 由于模型可辨识性问题,神经网络和任意具有多个等效参数化潜变量的模型都会具有多个局部极小值。如果一个足够大的训练集可以唯一确定一组模型参数,那么该模型被称为可辨认的。
  4. 一种能排除局部极小值是主要问题的检测方法是画出梯度范数随时间的变化。如果梯度范数没有缩小到一个微小的值,那么该问题既不是局部极小值,也不是其他形式的临界点。
  5. 多类随机函数表现出以下性质:低维空间中,局部极小值很普遍;在更高维空间中,局部极小值很罕见,而鞍点则很常见(在鞍点处,Hessian矩阵同时具有正负特征值)。
  6. 梯度消失与爆炸问题:指该计算图上的梯度会因为diag(λ)大幅度变化。
  1. 随机梯度下降:SGD
  2. 动量方法旨在加速学习,特别是处理高曲率、小但一致的梯度,或是带噪声的梯度。动量算法积累了之前梯度指数级衰减的移动平均,并且继续沿该方向移动。动量的主要目的是解决两个问题:Hessian矩阵的病态条件和随机梯度的方差。
  3. Nesterov动量可以解释为往标准动量方法中添加一个校正因子,即其梯度计算在施加当前速度之后。
  1. Delta-bar-delta算法是一个早期的在训练时适应模型参数各自学习率的启发式算法。该方法的思想如下:如果损失对于某个给定模型参数的偏导保持相同的符号,那么学习率应该增加。如果对于该参数的偏导变化了符号,那么学习率应减小。当然这种方法只能应用于全批量优化中。
  2. AdaGrad算法,独立地适应所有模型参数的学习率,缩放每个参数反比于其所有梯度历史平方值总和的平方根。具有损失最大偏导的参数相应地有一个快速下降的学习率,而具有小偏导的参数在学习率上有相对较小的下降。净效果是在参数空间中更为平缓的倾斜方向会取得更大的进步。(对于训练深度神经网络模型而言,从训练开始时积累梯度平方会导致有效学习率过早和过量的减少。)
  3. RMSProp算法修改AdaGrad以在非凸设定下效果更好,改变梯度积累为指数加权的移动平均。
  4. Adam算法中,动量直接并入了梯度一阶矩(指数加权)的估计,其次,Adam包括偏置修正,修正从原点初始化的一阶矩(动量项)和(非中心的)二阶矩的估计。
  1. 共轭梯度是一种通过迭代下降的共轭方向以有效避免Hessian矩阵求逆计算的方法。
  1. 优化算法:批标准化、坐标下降、Polyak平均、监督预训练
  2. 选择一簇容易优化的模型比使用一个强大的优化算法更重要。

平台注册入口