人工智能时代前沿技术社区

首页 > 人工智能 > 热点

深度学习优化方法系列(一)

优化方法是一种数学方法,它是研究在给定约束条件之下如何寻求某些因素的量,以使需求的某指标达到最优的一些学科的总称。不论是学习还是工

作者: | 2018-08-07 15:49:47

1533628738136991.jpg

优化方法是一种数学方法,它是研究在给定约束条件之下如何寻求某些因素的量,以使需求的某指标达到最优的一些学科的总称。不论是学习还是工作中,优化方法都扮演着重要的角色。比如在机器学习算法当中,大部分算法的本质就是建立优化模型,通过最优化方法对目标函数进行优化从而训练出最好的模型。接下来将对常见的优化方法进行简单的介绍。

首先带来的是流优化手段SGD。

 v2-1abec5ad44cfb7cf1c66ba742c5f02ee_r.jpg

Stochastic gradient descent 即随机梯度下降,也称为增量梯度下降,通常简称为SGD,它是用于优化可微分目标函数的迭代方法,梯度下降优化的随机近似。

 

相对于GD和SGD的一些延伸形式,SGD明显更受研究者和使用者的宠爱。这种受欢迎的现象并不是没有缘由的,从类似直觉动机方面来看,SGD能更有效的利用信息,尤其是在信息十分冗余的时刻,其有效程度表现的更加明显;在实验层来说,相对于非随机算法,SGD在前期的迭代效果卓越;理论上SGD也同样表现出它的优越性,如果样本数量大,SGD的Comlexity依然有优势。

但是,在优化方面并没有最完美的一种方法,SGD同样存在缺点,但缺点的存在会不断推进更好的优化方法的衍生。选择合适的learning rate比较困难—— 对所有的参数更新使用同样的learning rate。对于稀疏数据或者特征,有时我们可能想更新快一些对于常出现的特征我们可能想更新慢一些,这时候SGD就不太能满足要求了。与此同时,SGD容易收敛到局部最优,并且在某些情况下可能被困在鞍点

以上就是对随机梯度下降SGD的简单介绍。