Model-based Reinforcement Learning for Semi-Markov Decision Processes with Neural ODEs

Jianzhun Du; Joseph Futoma; Finale Doshi-velez

2020 NIPS NeurIPS 2020

Model-based Reinforcement Learning for Semi-Markov Decision Processes with Neural ODEs

Abstract

We present two elegant solutions for modeling continuous-time dynamics, in a novel model-based reinforcement learning (RL) framework for semi-Markov decision processes (SMDPs), using neural ordinary differential equations (ODEs). Our models accurately characterize continuous-time dynamics and enable us to develop high-performing policies using a small amount of data. We also develop a model-based approach for optimizing time schedules to reduce interaction rates with the environment while maintaining the near-optimal performance, which is not possible for model-free methods. We experimentally demonstrate the efficacy of our methods across various continuous-time domains.

🌉 Interdisciplinary Bridge — Artificial Intelligence and Reinforcement Learning

🧭 Keyword Pioneer — continuous time dynamics

🐣 Hot Topic Early Bird — optimal control

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Knowledge & Reasoning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Robotics

Authors

Jianzhun Du , Joseph Futoma , Finale Doshi-velez

Topics

Artificial Intelligence > Core AI > Planning Reinforcement Learning > Methods > Deep RL

Keywords

optimal control model-based reinforcement learning neural ordinary differential equation semi-markov decision process continuous time dynamics

Download PDF

Related papers

Higher-Order Spectral Clustering of Directed Graphs 2020

Self-Supervised MultiModal Versatile Networks 2020

Multi-Robot Collision Avoidance under Uncertainty with Probabilistic Safety Barrier Certificates 2020

Causal Intervention for Weakly-Supervised Semantic Segmentation 2020

Taming Discrete Integration via the Boon of Dimensionality 2020