Exploring Hidden Dimensions in Accelerating Convolutional Neural Networks

Zhihao Jia; Sina Lin; Charles R. Qi; Alex Aiken

2018 ICML ICML 2018

Exploring Hidden Dimensions in Accelerating Convolutional Neural Networks

Abstract

The past few years have witnessed growth in the computational requirements for training deep convolutional neural networks. Current approaches parallelize training onto multiple devices by applying a single parallelization strategy (e.g., data or model parallelism) to all layers in a network. Although easy to reason about, these approaches result in suboptimal runtime performance in large-scale distributed training, since different layers in a network may prefer different parallelization strategies. In this paper, we propose layer-wise parallelism that allows each layer in a network to use an individual parallelization strategy. We jointly optimize how each layer is parallelized by solving a graph search problem. Our evaluation shows that layer-wise parallelism outperforms state-of-the-art approaches by increasing training throughput, reducing communication costs, achieving better scalability to multiple GPUs, while maintaining original network accuracy.

🌉 Interdisciplinary Bridge — Artificial Intelligence and Deep Learning and Machine Learning

📈 Trend Setter — Efficient Computing

🧭 Keyword Pioneer — layer-wise parallelism

🐣 Hot Topic Early Bird — distributed training

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Knowledge & Reasoning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Robotics, Security & Privacy, Speech & Audio

Authors

Zhihao Jia , Sina Lin , Charles R. Qi , Alex Aiken

Topics

Machine Learning > Application Areas > Efficient Computing Deep Learning > Techniques > Model Architecture Artificial Intelligence > Core AI > Efficient Computing Deep Learning > Optimization & Theory > Neural Network Optimization Deep Learning > Optimization & Theory > Optimization

Keywords

neural network optimization model parallelism parallel computing distributed training graph optimization convolutional neural network data parallelism layer-wise parallelism

Download PDF

Related papers

Rectify Heterogeneous Models with Semantic Mapping 2018

Bayesian Optimization of Combinatorial Structures 2018

The Well-Tempered Lasso 2018

Approximation Algorithms for Cascading Prediction Models 2018

Classification from Pairwise Similarity and Unlabeled Data 2018