A Policy Optimization Method Towards Optimal-time Stability

Shengjie Wang; Lan Fengb; Xiang Zheng; Yuxue Cao; Oluwatosin OluwaPelumi Oseni; Haotian Xu; Tao Zhang; Yang Gao

2023 CORL CoRL 2023

A Policy Optimization Method Towards Optimal-time Stability

Abstract

In current model-free reinforcement learning (RL) algorithms, stability criteria based on sampling methods are commonly utilized to guide policy optimization. However, these criteria only guarantee the infinite-time convergence of the system’s state to an equilibrium point, which leads to sub-optimality of the policy. In this paper, we propose a policy optimization technique incorporating sampling-based Lyapunov stability. Our approach enables the system’s state to reach an equilibrium point within an optimal time and maintain stability thereafter, referred to as "optimal-time stability". To achieve this, we integrate the optimization method into the Actor-Critic framework, resulting in the development of the Adaptive Lyapunov-based Actor-Critic (ALAC) algorithm. Through evaluations conducted on ten robotic tasks, our approach outperforms previous studies significantly, effectively guiding the system to generate stable patterns.

🧭 Keyword Pioneer — optimal-time stability

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Knowledge & Reasoning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Robotics, Security & Privacy

Authors

Shengjie Wang , Lan Fengb , Xiang Zheng , Yuxue Cao , Oluwatosin OluwaPelumi Oseni , Haotian Xu , Tao Zhang , Yang Gao

Topics

Reinforcement Learning > Methods > Policy Learning Reinforcement Learning > Applications > Robotics

Keywords

policy optimization robotic control lyapunov stability optimal-time stability

Download PDF

Related papers

Stochastic Occupancy Grid Map Prediction in Dynamic Scenes 2023

SayPlan: Grounding Large Language Models using 3D Scene Graphs for Scalable Robot Task Planning 2023

Robot Parkour Learning 2023

Task-Oriented Koopman-Based Control with Contrastive Encoder 2023

Language-Guided Traffic Simulation via Scene-Level Diffusion 2023