网络优化与正则化

网络优化与正则化

网络优化

网络优化的难点:

  1. 不同网络的结构差异大,没有通用的优化算法,超参数多
  2. 非凸优化问题,如何继续参数初始化和逃离局部最优
  3. 梯度消失和梯度爆炸问题

网络优化的方法

梯度下降法(GD)

  1. 批量梯度下降法(BGD)

    批量梯度下降得到的是一个所有训练数据上的全局最优解,每一次的参数更新都用到了所有的训练数据,如果训练数据非常多的话,执行效率较低。

    $\theta_j^{‘} = \theta_j + \frac{1}{m}\sum_{i=1}^{m}(y^i - h_\theta(x^i))x_j^i$

    缺点:处理大型数据缓慢,易导致内存溢出; 更新快慢由学习率决定,在非凸曲面中可能会趋于局部最优;

  2. 随机梯度下降法(SGD)

    利用单个样本的损失函数对θ求偏导得到对应的梯度,来更新θ

    $\theta_j^{‘} = \theta_j + (y^i - h_\theta(x^i))x_j^i$

    缺点:噪音较BGD要多,使得SGD并不是每次迭代都向着整体最优化方向,; 当数据较多时,训练缓慢。

  3. 小批量梯度下降法(Mini-Batch GD)

    利用部分样本的损失函数对θ求偏导得到对应的梯度,来更新θ

    for k = 1, 11, 21, ..,,99 do

    $\theta_j^{‘} = \theta_j + \frac{1}{10}\sum_{i=k}^{k+9}(y^i - h_\theta(x^i))x_j^i$

    优点:能减少参数更新的波动,获得更好和更稳定的收敛

image-20240609204358288

优化方法:

image-20240610181701007


网络优化与正则化
https://wendyflv.github.io/2024/06/09/网络优化与正则化/
作者
Wendyflv
发布于
2024年6月9日
许可协议