Pessimistic Off-Policy Multi-Objective Optimization

Shima Alizadeh; Aniruddha Bhargava; Karthick Gopalswamy; Lalit Jain; Branislav Kveton; Ge Liu

2024 AISTATS AISTATS 2024

Pessimistic Off-Policy Multi-Objective Optimization

Abstract

Multi-objective optimization is a class of optimization problems with multiple conflicting objectives. We study offline optimization of multi-objective policies from data collected by a previously deployed policy. We propose a pessimistic estimator for policy values that can be easily plugged into existing formulas for hypervolume computation and optimized. The estimator is based on inverse propensity scores (IPS), and improves upon a naive IPS estimator in both theory and experiments. Our analysis is general, and applies beyond our IPS estimators and methods for optimizing them.

🧭 Keyword Pioneer — off-policy optimization

🐝 Cross-Pollinator — Artificial Intelligence, Deep Learning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Speech & Audio

🌉 Interdisciplinary Bridge — Machine Learning and Mathematics & Optimization and Reinforcement Learning

Authors

Shima Alizadeh , Aniruddha Bhargava , Karthick Gopalswamy , Lalit Jain , Branislav Kveton , Ge Liu

Topics

Machine Learning > Optimization & Theory > Optimization Reinforcement Learning > Methods > Offline RL Machine Learning > Learning Types > Multi-Task Learning Mathematics & Optimization > Optimization > Multi-Objective Optimization

Keywords

multi-objective optimization off-policy optimization inverse propensity scoring inverse propensity score pessimistic estimator

Download PDF

Related papers

Causal Bandits with General Causal Models and Interventions 2024

Boundary-Aware Uncertainty for Feature Attribution Explainers 2024

Better Representations via Adversarial Training in Pre-Training: A Theoretical Perspective 2024

A Primal-Dual-Critic Algorithm for Offline Constrained Reinforcement Learning 2024

Pure Exploration in Bandits with Linear Constraints 2024