网络优化与正则化

网络优化与正则化

网络优化

网络优化的难点：

不同网络的结构差异大，没有通用的优化算法，超参数多
非凸优化问题，如何继续参数初始化和逃离局部最优
梯度消失和梯度爆炸问题

网络优化的方法

梯度下降法（GD）

批量梯度下降法（BGD)

批量梯度下降得到的是一个所有训练数据上的全局最优解，每一次的参数更新都用到了所有的训练数据，如果训练数据非常多的话，执行效率较低。

$\theta_j^{‘} = \theta_j + \frac{1}{m}\sum_{i=1}^{m}(y^i - h_\theta(x^i))x_j^i$

缺点：处理大型数据缓慢，易导致内存溢出；更新快慢由学习率决定，在非凸曲面中可能会趋于局部最优；
随机梯度下降法（SGD）

利用单个样本的损失函数对θ求偏导得到对应的梯度，来更新θ

$\theta_j^{‘} = \theta_j + (y^i - h_\theta(x^i))x_j^i$

缺点：噪音较BGD要多，使得SGD并不是每次迭代都向着整体最优化方向，；当数据较多时，训练缓慢。
小批量梯度下降法（Mini-Batch GD）

利用部分样本的损失函数对θ求偏导得到对应的梯度，来更新θ

for k = 1, 11, 21, ..,,99 do

$\theta_j^{‘} = \theta_j + \frac{1}{10}\sum_{i=k}^{k+9}(y^i - h_\theta(x^i))x_j^i$

优点：能减少参数更新的波动，获得更好和更稳定的收敛

优化方法：

网络优化与正则化

https://wendyflv.github.io/2024/06/09/网络优化与正则化/

作者

Wendyflv

发布于

2024年6月9日

许可协议

深度生成模型上一篇

循环神经网络下一篇