admm 无梯度下降来训练神经网络:一个可扩展的ADMM途径

admm 无梯度下降来训练神经网络:一个可扩展的ADMM途径


文章图片

admm 无梯度下降来训练神经网络:一个可扩展的ADMM途径


文章图片

论文摘要:
随着大型网络模型和大量数据训练集的重要性日益增加,GPU在神经网络训练中变得越来越重要。这主要是因为传统的优化算法依赖于随机梯度法,随机梯度法在计算集群中的大量核心时没有很好的扩展。此外,所有梯度法的收敛性,包括批处理法,都存在一些共同的问题,如饱和效应、调整不良、鞍点等。
本文讨论了一种非常规训练方法,该方法利用交替方向法和伯格曼迭代法训练网络,不需要梯度下降步骤。这种方法减少了网络训练的问题,并将其简化为一系列最小的子步骤,每个子步骤都可以用封闭的方式全局求解。这种方法的优点是它绕过了许多考虑,这将导致梯度方法在高度非凸的问题上进展缓慢。这种方法在分布式环境下表现出很强的可扩展性,即使分散成几千万个内核也能产生线性加速。
【admm 无梯度下降来训练神经网络:一个可扩展的ADMM途径】正式介绍
随着硬件和算法的发展,神经网络在许多机器学习任务中的性能正在提高。尤其是在这样的应用中,进步非常明显:可以用海量的数据掌握参数多的模型。因为来自大数据集的结果在很多机器学习任务中总能超越最先进的方法,所以研究者愿意购买GPU等硬件,花费大量时间训练模型和优化参数。
基于梯度的训练方法有几个特点,需要专门的硬件来满足这些特点。首先,虽然大量数据可以分布在多个内核中,但现有的优化方法仍然要并行忍受。其次,训练神经网络需要优化非凸目标,非凸目标会有鞍点、缺乏条件和梯度耗散。所有这些都降低了基于梯度的方法的速度,例如随机梯度下降、共轭梯度和BFGS。之前介绍了几种避免这一问题的缓解方法,包括解决线性单位问题(RELU)(奈尔和:辛顿,2010)、长短期记忆网络(Hochriter & Schmidhuber,1997)、RPROP(Riedmiller & amp;布劳恩,1993)等等,但最根本的问题仍然存在。
本文介绍了一种训练神经网络参数的新方法,该方法采用了交替方向乘子算法(ADMM)和布雷格曼迭代法。它解决了传统梯度法面临的几个问题。当跨核数据并行时,它表现出线性扩展的能力,对梯度饱和和缺乏条件具有鲁棒性。该方法还将网络训练分解为一系列子步骤,每一步都可以通过全局最优性求解。该方法的可扩展性,以及避免局部极小化和全局求解每个子步骤的能力,可以达到快速加速训练的效果。
在第二章中,我们开始介绍这种方法的数学符号和背景,并讨论了我们要解决的基于梯度的方法的几个弱点。第三章和第四章介绍和描述了我们的优化方法,第五章和第六章详细解释了分布式实现。在第七章中,通过处理两个不同类型和不同难度的问题,给出了一种新方法与由标准实现的几种基于梯度的方法的实验比较。最后,第八章讨论了本文的贡献和今后的工作。
论文链接:https://arxiv.org/pdf/1605.02026v1.pdf
机器心,最专业的前沿科技媒体和工业服务平台,每天提供高质量的工业信息和深度思考。欢迎您关注微信公众号“几乎人类2014”,或登录www.almosthuman.cn机器之心网站查看更多精彩内容。

    推荐阅读