Stochastic Proximal Gradient Descent with Acceleration Techniques

Atsushi Nitanda

2014 NIPS NeurIPS 2014

Stochastic Proximal Gradient Descent with Acceleration Techniques

Abstract

Proximal gradient descent (PGD) and stochastic proximal gradient descent (SPGD) are popular methods for solving regularized risk minimization problems in machine learning and statistics. In this paper, we propose and analyze an accelerated variant of these methods in the mini-batch setting. This method incorporates two acceleration techniques: one is Nesterov's acceleration method, and the other is a variance reduction for the stochastic gradient. Accelerated proximal gradient descent (APG) and proximal stochastic variance reduction gradient (Prox-SVRG) are in a trade-off relationship. We show that our method, with the appropriate mini-batch size, achieves lower overall complexity than both APG and Prox-SVRG.

🧭 Keyword Pioneer — acceleration method

🐣 Hot Topic Early Bird — stochastic gradient descent

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Machine Learning, Mathematics & Optimization, Reinforcement Learning

🌉 Interdisciplinary Bridge — Deep Learning and Machine Learning and Mathematics & Optimization

📈 Trend Setter — Stochastic Methods

Authors

Atsushi Nitanda

Topics

Machine Learning > Optimization & Theory > Neural Network Optimization Machine Learning > Optimization & Theory > Optimization Mathematics & Optimization > Optimization > Stochastic Methods Machine Learning > Optimization & Theory > Stochastic Methods Mathematics & Optimization > Optimization > Optimization Machine Learning > Core Methods > Optimization Deep Learning > Optimization & Theory > Optimization Deep Learning > Optimization & Theory > Stochastic Methods

Keywords

stochastic optimization stochastic gradient descent variance reduction complexity analysis mini-batch optimization proximal gradient proximal gradient descent nesterov acceleration acceleration method

Download PDF

Related papers

Information-based learning by agents in unbounded state spaces 2014

Stochastic Gradient Descent, Weighted Sampling, and the Randomized Kaczmarz algorithm 2014

Partition-wise Linear Models 2014

Active Regression by Stratification 2014

Cone-Constrained Principal Component Analysis 2014