分析！Adam 或许不是最佳的深度学习优化器

发布时间：2021-05-22 15:55:06 所属栏目：大数据来源：互联网

导读：这篇论文还可以，但算不上突破，就今天的标准而言更是如此。事实上，这个理论是薄弱的：对于一种应该处理非凸函数随机优化的算法给出了 regret guarantee。这些

这篇论文还可以，但算不上突破，就今天的标准而言更是如此。事实上，这个理论是薄弱的：对于一种应该处理非凸函数随机优化的算法给出了 regret guarantee。这些实验也很弱：在这些日子里，同样的实验肯定会遭到拒绝。晚些时候人以及该算法不收敛于某些一维随机凸函数的事实。尽管如此，现在 Adam 被认为是优化算法之王。让我明确一点：众所周知， Adam 不会总实现最佳性能，但大多数时候，人们认为可以利用 Adam 的默认参数在处理某个深度学习问题上实现至少次优的性能。换句话说，Adam 现在被认为是深度学习的默认优化器。那么，Adam 背后成功的秘密是什么?

多年来，人们发表了大量的论文试图解释 Adam 和它的表现，太多了，不能一一列举。从“适应学习率”(适应到什么?没有人确切地知道……)到动量，到几乎标度不变性，它的神秘配方的每一个方面都被检查过。然而，这些分析都没有给我们关于其性能的最终答案。很明显，这些成分中的大多数对任何函数的优化过程都是有益的，但仍然不清楚为什么这个确切的组合而不是另一个组合使它成为最好的算法。混合物的平衡是如此的微妙以至于修正不收敛问题所需的小更改被认为比 Adam 表现稍差。

Adam 的名声也伴随着强烈的情感：阅读上的帖子就足以看出人们对捍卫他们最喜欢的优化器的热情。这种热情你可以在宗教、体育和政治中看到。

然而，这一切的可能性有多大?我是说，Adam 是最佳优化算法的可能性有多大?几年前，在一个如此年轻的领域，我们达到深度学习优化的顶峰的可能性有多大?它的惊人表现还有其他的解释吗?

我有一个假设，但在解释之前，我们必须简单谈谈深度学习社区。

在谈话中,Olivier Bousquet 将深度学习社区描述为一个巨人 genetic algorithm：这个社区的研究人员正在以一种半随机的方式探索各种算法和架构的空间。在大型实验中一直有效的东西被保留，无效的被丢弃。请注意，这个过程似乎与论文的接受和拒绝无关:这个社区是如此的庞大和活跃，关于被拒绝论文的好想法仍然会被保存下来，并在几个月内转化为最佳实践，参见举例。类似地，发表的论文中的观点被成百上千的人复制，他们无情地丢弃那些不会复制的东西。这个过程创造了许多启发式，在实验中始终产生良好的结果，这里的重点是“始终如一”。事实上，尽管是一种基于非凸公式的方法，深度学习方法的性能证明是非常可靠的。(需要注意的是，深度学习社区对“名人”也有很大的偏好，所以并不是所有的想法都能得到同等程度的关注……)

（编辑：焦作站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

识别实体与值对象的关	折叠屏技术全面提升三
了解大数据风控平台的	大数据时代的智能分析