Variational Policy Search via Trajectory Optimization

Sergey Levine; Vladlen Koltun

2013 NIPS NeurIPS 2013

Variational Policy Search via Trajectory Optimization

Abstract

In order to learn effective control policies for dynamical systems, policy search methods must be able to discover successful executions of the desired task. While random exploration can work well in simple domains, complex and high-dimensional tasks present a serious challenge, particularly when combined with high-dimensional policies that make parameter-space exploration infeasible. We present a method that uses trajectory optimization as a powerful exploration strategy that guides the policy search. A variational decomposition of a maximum likelihood policy objective allows us to use standard trajectory optimization algorithms such as differential dynamic programming, interleaved with standard supervised learning for the policy itself. We demonstrate that the resulting algorithm can outperform prior methods on two challenging locomotion tasks.

🌉 Interdisciplinary Bridge — Artificial Intelligence and Reinforcement Learning

🧭 Keyword Pioneer — locomotion control

🐣 Hot Topic Early Bird — reinforcement learning

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Knowledge & Reasoning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Robotics, Speech & Audio

📈 Trend Setter — Reinforcement Learning

Authors

Sergey Levine , Vladlen Koltun

Topics

Artificial Intelligence > Core AI > Planning Reinforcement Learning > Methods > Policy Learning Reinforcement Learning > Applications > Robotics Robotics > Capabilities > Motion Planning Artificial Intelligence > Core AI > Reinforcement Learning Robotics > Applications > Robotics

Keywords

reinforcement learning locomotion control variational inference differential dynamic programming policy search trajectory optimization control policies control policy policy objective

Download PDF

Related papers

Latent Structured Active Learning 2013

On Flat versus Hierarchical Classification in Large-Scale Taxonomies 2013

Generalized Method-of-Moments for Rank Aggregation 2013

Third-Order Edge Statistics: Contour Continuation, Curvature, and Cortical Connections 2013

Accelerated Mini-Batch Stochastic Dual Coordinate Ascent 2013