Reinforcement Learning › Methods ›

Deep RL

3861 directly classified papers

Papers per year

Papers

GINO-Q: Learning an Asymptotically Optimal Index Policy for Restless Multi-armed Bandits AAAI 2026

MS-PPO: Mean Standard Deviation Proximal Policy Optimization for Reliable Parking Space Search in Structured Environments AAAI 2026

Coordinated Humanoid Robot Locomotion with Symmetry Equivariant Reinforcement Learning Policy AAAI 2026

Actor-Critic for Continuous Action Chunks: A Reinforcement Learning Framework for Long-Horizon Robotic Manipulation with Sparse Reward AAAI 2026

DIMM: Decoupled Multi-hierarchy Kalman Filter via Reinforcement Learning AAAI 2026

Keep On Going: Learning Robust Humanoid Motion Skills via Selective Adversarial Training AAAI 2026

D²PPO: Diffusion Policy Policy Optimization with Dispersive Loss AAAI 2026

GraphRAG-Induced Dual Knowledge Structure Graphs for Personalized Learning Path Recommendation AAAI 2026

Potent but Stealthy: Rethink Profile Pollution Against Sequential Recommendation via Bi-Level Constrained Reinforcement Paradigm AAAI 2026

VideoSeg-R1:Reasoning Video Object Segmentation via Reinforcement Learning AAAI 2026

PulseMind: A Multi-Modal Medical Model for Real-World Clinical Diagnosis AAAI 2026

ReasonAct: Progressive Training for Fine-Grained Video Reasoning in Small Models AAAI 2026

AURORA: Augmented Understanding via Structured Reasoning and Reinforcement Learning for Reference Audio-Visual Segmentation AAAI 2026

Informative Subgraph Extraction with Deep Reinforcement Learning for Drug-Drug Interaction Prediction AAAI 2026

VQAThinker: Exploring Generalizable and Explainable Video Quality Assessment via Reinforcement Learning AAAI 2026

RLSLM: A Hybrid Framework Combining Reinforcement Learning and a Rule-based Social Locomotion Model for Socially-aware Navigation AAAI 2026

Learning Object-Centric Motion Priors from Human for Robotic Dexterous Manipulation AAAI 2026

Risk-Sensitive Exponential Actor Critic AAAI 2026

Out-of-Distribution Generalization with a SPARC: Racing 100 Unseen Vehicles with a Single Policy AAAI 2026

OneFont: A Unified Agent for End-to-End Font Creation AAAI 2026

DRMD: Deep Reinforcement Learning for Malware Detection Under Concept Drift AAAI 2026

DialogXpert: Driving Intelligent and Emotion-Aware Conversations Through Online Value-Based Reinforcement Learning with LLM Priors AAAI 2026

No MoCap Needed: Post-Training Motion Diffusion Models with Reinforcement Learning using Only Textual Prompts WACV 2026

Specification-Guided Reinforcement Learning AAAI 2026

Interpretable Adversarial Reinforcement Learning AAAI 2026