行业新闻

优化器 Optimizers _1

优化器 (optimizer) 是编译 Keras 模型的所需的两个参数之一:



你可以先实例化一个优化器对象,然后将它传入 ,像上述示例中一样, 或者你可以通过名称来调用优化器。在后一种情况下,将使用优化器的默认参数。




参数 和 能在所有的优化器中使用,用于控制梯度裁剪(Gradient Clipping):






[source]



随机梯度下降优化器。

包含扩展功能的支持:

  • 动量(momentum)优化,
  • 学习率衰减(每次参数更新后)
  • Nestrov 动量 (NAG) 优化

参数

  • learning_rate: float >=0. 学习率。
  • momentum: float >=0. 参数,用于加速 SGD 在相关方向上前进,并抑制震荡。
  • nesterov: boolean. 是否使用 Nesterov 动量。

[source]



RMSProp 优化器。

建议使用优化器的默认参数 (除了学习率,它可以被自由调节)

这个优化器通常是训练循环神经网络 RNN 的不错选择。

参数

  • learning_rate: float >=0. 学习率。
  • rho: float >=0. RMSProp 梯度平方的移动均值的衰减率。

参考文献


[source]



Adagrad 优化器。

Adagrad 是一种具有特定参数学习率的优化器,它根据参数在训练期间的更新频率进行自适应调整。参数接收的更新越多,更新越小。

建议使用优化器的默认参数。

参数

  • learning_rate: float >=0. 学习率。

参考文献


[source]



Adadelta 优化器。

Adadelta 是 Adagrad 的一个具有更强鲁棒性的的扩展版本,它不是累积所有过去的梯度,而是根据渐变更新的移动窗口调整学习速率。 这样,即使进行了许多更新,Adadelta 仍在继续学习。 与 Adagrad 相比,在 Adadelta 的原始版本中,您无需设置初始学习率。 在此版本中,与大多数其他 Keras 优化器一样,可以设置初始学习速率和衰减因子。

建议使用优化器的默认参数。

参数

  • learning_rate: float >=0. 初始学习率,默认为 1。建议保留默认值。
  • rho: float >=0. Adadelta 梯度平方移动均值的衰减率。

参考文献


[source]



Adam 优化器。

默认参数遵循原论文中提供的值。

参数

  • learning_rate: float >=0. 学习率。
  • beta_1: float, 0 < beta < 1. 通常接近于 1。
  • beta_2: float, 0 < beta < 1. 通常接近于 1。
  • amsgrad: boolean. 是否应用此算法的 AMSGrad 变种,来自论文 "On the Convergence of Adam and Beyond"。

参考文献


[source]



Adamax 优化器,来自 Adam 论文的第七小节.

它是Adam算法基于无穷范数(infinity norm)的变种。 默认参数遵循论文中提供的值。

参数

  • learning_rate: float >=0. 学习率。
  • beta_1: floats, 0 < beta < 1. 通常接近于 1。
  • beta_2: floats, 0 < beta < 1. 通常接近于 1。

参考文献


[source]



Nesterov 版本 Adam 优化器。

正像 Adam 本质上是 RMSProp 与动量 momentum 的结合, Nadam 是采用 Nesterov momentum 版本的 Adam 优化器。

默认参数遵循论文中提供的值。 建议使用优化器的默认参数。

参数

  • learning_rate: float >=0. 学习率。
  • beta_1: floats, 0 < beta < 1. 通常接近于 1。
  • beta_2: floats, 0 < beta < 1. 通常接近于 1。

参考文献

平台注册入口