Efficient Large-Scale Distributed Training of Conditional Maximum Entropy Models

Ryan Mcdonald; Mehryar Mohri; Nathan Silberman; Dan Walker; Gideon S. Mann

2009 NIPS NeurIPS 2009

Efficient Large-Scale Distributed Training of Conditional Maximum Entropy Models

Abstract

Training conditional maximum entropy models on massive data requires significant time and computational resources. In this paper, we investigate three common distributed training strategies: distributed gradient, majority voting ensembles, and parameter mixtures. We analyze the worst-case runtime and resource costs of each and present a theoretical foundation for the convergence of parameters under parameter mixtures, the most efficient strategy. We present large-scale experiments comparing the different strategies and demonstrate that parameter mixtures over independent models use fewer resources and achieve comparable loss as compared to standard approaches.

📈 Trend Setter — Distributed Learning

🧭 Keyword Pioneer — ensemble training

🐣 Hot Topic Early Bird — gradient descent

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning

🌉 Interdisciplinary Bridge — Machine Learning and Mathematics & Optimization

Authors

Ryan Mcdonald , Mehryar Mohri , Nathan Silberman , Dan Walker , Gideon S. Mann

Topics

Machine Learning > Core Methods > Regression Machine Learning > Optimization & Theory > Distributed Learning Machine Learning > Optimization & Theory > Optimization Machine Learning > Learning Types > Ensemble Learning Mathematics & Optimization > Optimization > Distributed Optimization

Keywords

maximum entropy convex optimization distributed learning ensemble training gradient descent distributed training maximum entropy models parameter mixtures gradient computation ensemble method

Download PDF

Related papers

Solving Stochastic Games 2009

Bilinear classifiers for visual recognition 2009

Zero-shot Learning with Semantic Output Codes 2009

Matrix Completion from Power-Law Distributed Samples 2009

Heavy-Tailed Symmetric Stochastic Neighbor Embedding 2009