Reinforcement Learning › Methods ›

Offline RL

725 directly classified papers

Papers per year

Papers

Constrained Latent Action Policies for Model-Based Offline Reinforcement Learning NIPS 2024

Improved Algorithm for Adversarial Linear Mixture MDPs with Bandit Feedback and Unknown Transition AISTATS 2024

Uncertainty-based Offline Variational Bayesian Reinforcement Learning for Robustness under Diverse Data Corruptions NIPS 2024

CUDC: A Curiosity-Driven Unsupervised Data Collection Method with Adaptive Temporal Distances for Offline Reinforcement Learning AAAI 2024

Is Value Learning Really the Main Bottleneck in Offline RL? NIPS 2024

Retrospex: Language Agent Meets Offline Reinforcement Learning Critic EMNLP 2024

Don’t Forget Your Reward Values: Language Model Alignment via Value-based Calibration EMNLP 2024

WPO: Enhancing RLHF with Weighted Preference Optimization EMNLP 2024

Optimistic Model Rollouts for Pessimistic Offline Policy Optimization AAAI 2024

A Perspective of Q-value Estimation on Offline-to-Online Reinforcement Learning AAAI 2024

Reward-Relevance-Filtered Linear Offline Reinforcement Learning AISTATS 2024

How does Inverse RL Scale to Large State Spaces? A Provably Efficient Approach NIPS 2024

RL in Latent MDPs is Tractable: Online Guarantees via Off-Policy Evaluation NIPS 2024

Sample Complexity Reduction via Policy Difference Estimation in Tabular Reinforcement Learning NIPS 2024

Decision Mamba: A Multi-Grained State Space Model with Self-Evolution Regularization for Offline RL NIPS 2024

Online Learning with Off-Policy Feedback in Adversarial MDPs IJCAI 2024

Deterministic Uncertainty Propagation for Improved Model-Based Offline Reinforcement Learning NIPS 2024

Distributionally Robust Off-Dynamics Reinforcement Learning: Provable Efficiency with Linear Function Approximation AISTATS 2024

A2PO: Towards Effective Offline Reinforcement Learning from an Advantage-aware Perspective NIPS 2024

SpOiLer: Offline reinforcement learning using scaled penalties L4DC 2024

Offline Reinforcement Learning: Role of State Aggregation and Trajectory Data COLT 2024

ROIDICE: Offline Return on Investment Maximization for Efficient Decision Making NIPS 2024

Instrumental Variable Value Iteration for Causal Offline Reinforcement Learning JMLR 2024

Towards an Information Theoretic Framework of Context-Based Offline Meta-Reinforcement Learning NIPS 2024

Exclusively Penalized Q-learning for Offline Reinforcement Learning NIPS 2024