Stochastic Nonconvex Optimization with Large Minibatches

Weiran Wang; Nathan Srebro

2019 ALT ALT 2019

Stochastic Nonconvex Optimization with Large Minibatches

Abstract

We study stochastic optimization of nonconvex loss functions, which are typical objectives for training neural networks. We propose stochastic approximation algorithms which optimize a series of regularized, nonlinearized losses on large minibatches of samples, using only first-order gradient information. Our algorithms provably converge to an approximate critical point of the expected objective with faster rates than minibatch stochastic gradient descent, and facilitate better parallelization by allowing larger minibatches.

🌉 Interdisciplinary Bridge — Deep Learning and Machine Learning

🧭 Keyword Pioneer — large minibatch

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Knowledge & Reasoning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Robotics, Security & Privacy, Speech & Audio

Authors

Weiran Wang , Nathan Srebro

Topics

Machine Learning > Optimization & Theory > Neural Network Optimization Machine Learning > Optimization & Theory > Optimization Deep Learning > Architectures > Neural Networks

Keywords

stochastic gradient descent neural network training nonconvex optimization large minibatch

Download PDF

Related papers

An Exponential Efron-Stein Inequality for $L_q$ Stable Learning Rules 2019

Online Influence Maximization with Local Observations 2019

Minimax Learning of Ergodic Markov Chains 2019

Average-Case Information Complexity of Learning 2019

Algorithmic Learning Theory 2019: Preface 2019