IPO: Interior-Point Policy Optimization under Constraints

Yongshuai Liu; Jiaxin Ding; Xin Liu

2020 AAAI AAAI 2020

IPO: Interior-Point Policy Optimization under Constraints

Abstract

Abstract In this paper, we study reinforcement learning (RL) algorithms to solve real-world decision problems with the objective of maximizing the long-term reward as well as satisfying cumulative constraints. We propose a novel first-order policy optimization method, Interior-point Policy Optimization (IPO), which augments the objective with logarithmic barrier functions, inspired by the interior-point method. Our proposed method is easy to implement with performance guarantees and can handle general types of cumulative multi-constraint settings. We conduct extensive evaluations to compare our approach with state-of-the-art baselines. Our algorithm outperforms the baseline algorithms, in terms of reward maximization and constraint satisfaction.

🌉 Interdisciplinary Bridge — Deep Learning and Machine Learning and Mathematics & Optimization and Reinforcement Learning

🧭 Keyword Pioneer — cumulative constraint

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Knowledge & Reasoning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Robotics, Security & Privacy, Speech & Audio

Authors

Yongshuai Liu , Jiaxin Ding , Xin Liu

Topics

Machine Learning > Optimization & Theory > Optimization Reinforcement Learning > Methods > Policy Learning Mathematics & Optimization > Optimization > Continuous Optimization Deep Learning > Learning Types > Reinforcement Learning Machine Learning > Learning Types > Multi-Objective Optimization

Keywords

reinforcement learning policy optimization constrained optimization continuous control constraint satisfaction interior-point method reward maximization constrained policy optimization cumulative constraint logarithmic barrier function

Download PDF

Related papers

Enhancing Pointer Network for Sentence Ordering with Pairwise Ordering Predictions 2020

CopyMTL: Copy Mechanism for Joint Extraction of Entities and Relations with Multi-Task Learning 2020

Neural Simile Recognition with Cyclic Multitask Learning and Local Attention 2020

Being Optimistic to Be Conservative: Quickly Learning a CVaR Policy 2020

Multi-Point Semantic Representation for Intent Classification 2020