Simple data balancing achieves competitive worst-group-accuracy

Badr Youbi Idrissi; Martin Arjovsky; Mohammad Pezeshki; David Lopez-paz

2022 CLEAR CLeaR 2022

Simple data balancing achieves competitive worst-group-accuracy

Abstract

We study the problem of learning classifiers that perform well across (known or unknown) groups of data. After observing that common worst-group-accuracy datasets suffer from substantial imbalances, we set out to compare state-of-the-art methods to simple balancing of classes and groups by either subsampling or reweighting data. Our results show that these data balancing baselines achieve state-of-the-art-accuracy, while being faster to train and requiring no additional hyper-parameters. Finally, we highlight that access to group information is most critical for model selection purposes, and not so much during training. All in all, our findings beg closer examination of both benchmarks and methods for future research in worst-group-accuracy optimization.

🚀 Conference Pioneer — CLEAR 2022

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Knowledge & Reasoning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Security & Privacy, Speech & Audio

Authors

Badr Youbi Idrissi , Martin Arjovsky , Mohammad Pezeshki , David Lopez-paz

Topics

Machine Learning > Core Methods > Classification Machine Learning > Application Areas > Domain Generalization Machine Learning > Application Areas > Fairness

Keywords

data balancing group fairness worst-group accuracy

Download PDF

Related papers

Towards efficient representation identification in supervised learning 2022

Learning Invariant Representations with Missing Data 2022

Disentanglement via Mechanism Sparsity Regularization: A New Principle for Nonlinear ICA 2022

Amortized Causal Discovery: Learning to Infer Causal Graphs from Time-Series Data 2022

Can Humans Be out of the Loop? 2022