Reinforcement Learning › Methods ›

Policy Learning

2068 directly classified papers

Papers per year

Papers

iLSTD: Eligibility Traces and Convergence Analysis NIPS 2006

Natural Actor-Critic for Road Traffic Optimisation NIPS 2006

Geometric Variance Reduction in Markov Chains: Application to Value Function and Gradient Estimation JMLR 2006

Sample Complexity of Policy Search with Known Dynamics NIPS 2006

Boosting Structured Prediction for Imitation Learning NIPS 2006

An Application of Reinforcement Learning to Aerobatic Helicopter Flight NIPS 2006

Policy Gradient in Continuous Time JMLR 2006

Learning Nonparametric Models for Probabilistic Imitation NIPS 2006

Linearly-solvable Markov decision problems NIPS 2006

Learning Operational Space Control RSS 2006

Variance Reduction Techniques for Gradient Estimates in Reinforcement Learning JMLR 2004

Least-Squares Policy Iteration JMLR 2003

Using Confidence Bounds for Exploitation-Exploration Trade-offs JMLR 2002

Lyapunov Design for Safe Reinforcement Learning JMLR 2002

R-MAX - A General Polynomial Time Algorithm for Near-Optimal Reinforcement Learning JMLR 2002

On the Convergence of Optimistic Policy Iteration JMLR 2002

ε-MDPs: Learning in Varying Environments JMLR 2002

Policy Search using Paired Comparisons JMLR 2002