Robust Reinforcement Learning via Adversarial training with Langevin Dynamics

Parameswaran Kamalaruban; Yu-Ting Huang; Ya-Ping Hsieh; Paul Rolland; Cheng Shi; Volkan Cevher

2020 NIPS NeurIPS 2020

Robust Reinforcement Learning via Adversarial training with Langevin Dynamics

Abstract

We introduce a \emph{sampling} perspective to tackle the challenging task of training robust Reinforcement Learning (RL) agents. Leveraging the powerful Stochastic Gradient Langevin Dynamics, we present a novel, scalable two-player RL algorithm, which is a sampling variant of the two-player policy gradient method. Our algorithm consistently outperforms existing baselines, in terms of generalization across different training and testing conditions, on several MuJoCo environments. Our experiments also show that, even for objective functions that entirely ignore potential environmental shifts, our sampling approach remains highly robust in comparison to standard RL algorithms.

🌉 Interdisciplinary Bridge — Machine Learning and Reinforcement Learning

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Knowledge & Reasoning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Robotics, Security & Privacy, Speech & Audio

Authors

Parameswaran Kamalaruban , Yu-Ting Huang , Ya-Ping Hsieh , Paul Rolland , Cheng Shi , Volkan Cevher

Topics

Machine Learning > Learning Types > Adversarial Learning Machine Learning > Application Areas > Domain Generalization Reinforcement Learning > Methods > Deep RL

Keywords

langevin dynamics adversarial training robust reinforcement learning

Download PDF

Related papers

Higher-Order Spectral Clustering of Directed Graphs 2020

Self-Supervised MultiModal Versatile Networks 2020

Multi-Robot Collision Avoidance under Uncertainty with Probabilistic Safety Barrier Certificates 2020

Causal Intervention for Weakly-Supervised Semantic Segmentation 2020

Taming Discrete Integration via the Boon of Dimensionality 2020