Loss-Proportional Subsampling for Subsequent ERM

Paul Mineiro; Nikos Karampatziakis

2013 ICML ICML 2013

Loss-Proportional Subsampling for Subsequent ERM

Abstract

We propose a sampling scheme suitable for reducing a data set prior to selecting a hypothesis with minimum empirical risk. The sampling only considers a subset of the ultimate (unknown) hypothesis set, but can nonetheless guarantee that the final excess risk will compare favorably with utilizing the entire original data set. We demonstrate the practical benefits of our approach on a large dataset which we subsample and subsequently fit with boosted trees.

🚀 Conference Pioneer — ICML 2013

🌉 Interdisciplinary Bridge — Machine Learning and Mathematics & Optimization

📈 Trend Setter — Loss Functions

🧭 Keyword Pioneer — loss proportional sampling

🐣 Hot Topic Early Bird — stochastic optimization

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Data Science & Analytics, Deep Learning, Interdisciplinary, Machine Learning, Mathematics & Optimization, Reinforcement Learning, Security & Privacy, Speech & Audio

Authors

Paul Mineiro , Nikos Karampatziakis

Topics

Machine Learning > Optimization & Theory > Loss Functions Machine Learning > Application Areas > Efficient Computing Mathematics & Optimization > Optimization > Stochastic Methods Machine Learning > Learning Types > Supervised Learning Machine Learning > Optimization & Theory > Stochastic Methods

Keywords

stochastic optimization empirical risk minimization data reduction excess risk excess risk bound boosted tree loss proportional sampling

Download PDF

Related papers

Convex Adversarial Collective Classification 2013

Gaussian Process Vine Copulas for Multivariate Dependence 2013

Stochastic Simultaneous Optimistic Optimization 2013

Generic Exploration and K-armed Voting Bandits 2013

Robust Structural Metric Learning 2013