Mohammad Ghavamzadeh

88 papers · 2006–2026 · 11 conferences · across top CS/AI conferences

Achievements

🌈 Renaissance Researcher (5) 🧭 Keyword Pioneer 🌍 Conference Polyglot (11) 🐣 Hot Topic Early Bird 🐝 Cross-Pollinator (12) 🗺️ Taxonomy Completionist (32) 🌉 Interdisciplinary Bridge 🏃 Academic Marathon (19) 🏠 Conference Loyalist (26) 🌟 Keyword Trendsetter Combo (4) 🌱 Topic Pioneer 👑 Triple Crown 🔬 Deep Specialist (10) 🧬 Topic Evolution 🏆 Keyword Champion 🏆 Grand Slam 🤝 Dynamic Duo (18) 🗃️ Keyword Collector (115) 📈 Trend Setter 🔥 Unstoppable (16) 🚀 Conference Pioneer 💎 Century Club (87) ⚡ Prolific Year (10)

Conferences

NIPS (26) ICML (18) AISTATS (13) JMLR (8) ICLR (7) IJCAI (6) AAAI (4) L4DC (2) UAI (2) ACML (1) CORL (1)

Top co-authors

Yinlam Chow (18) Branislav Kveton (12) Alessandro Lazaric (12) Csaba Szepesvári (9) Craig Boutilier (7) Shie Mannor (6) Marek Petrik (6) Victor Gabillon (5) Rémi Munos (5) Manzil Zaheer (5)

Research topics

Differential Privacy (1)

Keywords

reinforcement learning (16) regret bound (15) multi-armed bandit (14) markov decision process (13) policy gradient (12) dynamic programming (7) policy iteration (7) policy learning (6) sample complexity (5) contextual bandit (5) regret minimization (5) model-based reinforcement learning (5) online algorithm (5) temporal difference learning (4) value iteration (4) sequential decision making (4) sample efficiency (4) stochastic optimization (4) thompson sampling (4) online learning (4)

Papers

Preference Optimization via Contrastive Divergence: Your Policy Is Secretly an NLL Estimator AAAI 2026

Contextual Bandits with Stage-wise Constraints JMLR 2025

Conservative Contextual Bandits: Beyond Linear Representations ICLR 2025

Q-learning for Quantile MDPs: A Decomposition, Performance, and Convergence Analysis AISTATS 2025

Bridging Distributionally Robust Learning and Offline RL: An Approach to Mitigate Distribution Shift and Partial Data Coverage L4DC 2025

Confidence-aware Reward Optimization for Fine-tuning Text-to-Image Models ICLR 2024

Bayesian Regret Minimization in Offline Bandits ICML 2024

Maximum Entropy Model Correction in Reinforcement Learning ICLR 2024

Ordering-based Conditions for Global Convergence of Policy Gradient Methods NIPS 2023

Multiple-policy High-confidence Policy Evaluation AISTATS 2023

Multi-Task Off-Policy Learning from Bandit Feedback ICML 2023

A Mixture-of-Expert Approach to RL-based Dialogue Management ICLR 2023

Entropic Risk Optimization in Discounted MDPs AISTATS 2023

Offline Reinforcement Learning for Mixture-of-Expert Dialogue Management NIPS 2023

Meta-Learning for Simple Regret Minimization AAAI 2023

DPOK: Reinforcement Learning for Fine-tuning Text-to-Image Diffusion Models NIPS 2023

On Dynamic Programming Decompositions of Static Risk Measures in Markov Decision Processes NIPS 2023

Thompson Sampling with a Mixture Prior AISTATS 2022

Feature and Parameter Selection in Stochastic Linear Bandits ICML 2022

Private and Communication-Efficient Algorithms for Entropy Estimation NIPS 2022

Robust Reinforcement Learning using Offline Data NIPS 2022

Efficient Risk-Averse Reinforcement Learning NIPS 2022

Operator Splitting Value Iteration NIPS 2022

Deep Hierarchy in Bandits ICML 2022

Hierarchical Bayesian Bandits AISTATS 2022

Mirror Descent Policy Optimization ICLR 2022

Fixed-Budget Best-Arm Identification in Structured Bandits IJCAI 2022

Adaptive Sampling for Minimax Fair Classification NIPS 2021

Control-Aware Representations for Model-based Reinforcement Learning ICLR 2021

PID Accelerated Value Iteration Algorithm ICML 2021

Deep Bayesian Quadrature Policy Optimization AAAI 2021

Stochastic Bandits with Linear Constraints AISTATS 2021

Variational Model-based Policy Optimization IJCAI 2021

Neural Lyapunov Redesign L4DC 2021

Safe Policy Learning for Continuous Control CORL 2020

Active Model Estimation in Markov Decision Processes UAI 2020

Multi-step Greedy Reinforcement Learning Algorithms ICML 2020

Predictive Coding for Locally-Linear Control ICML 2020

Conservative Exploration in Reinforcement Learning AISTATS 2020

Randomized Exploration in Generalized Linear Bandits AISTATS 2020

Adaptive Sampling for Estimating Probability Distributions ICML 2020

Prediction, Consistency, Curvature: Representation Learning for Locally-Linear Control ICLR 2020

Online Planning with Lookahead Policies NIPS 2020

Improved Algorithms for Conservative Exploration in Bandits AAAI 2020

Tight Regret Bounds for Model-Based Reinforcement Learning with Greedy Policies NIPS 2019

Optimizing over a Restricted Policy Class in MDPs AISTATS 2019

Perturbed-History Exploration in Stochastic Multi-Armed Bandits IJCAI 2019

Perturbed-History Exploration in Stochastic Linear Bandits UAI 2019

Risk-Sensitive Generative Adversarial Imitation Learning AISTATS 2019

Garbage In, Reward Out: Bootstrapping Exploration in Multi-Armed Bandits ICML 2019

Robust Locally-Linear Controllable Embedding AISTATS 2018

A Block Coordinate Ascent Algorithm for Mean-Variance Optimization NIPS 2018

A Lyapunov-based Approach to Safe Reinforcement Learning NIPS 2018

Path Consistency Learning in Tsallis Entropy Regularized MDPs ICML 2018

More Robust Doubly Robust Off-policy Evaluation ICML 2018

Risk-Constrained Reinforcement Learning with Percentile Risk Criteria JMLR 2018

Model-Independent Online Learning for Influence Maximization ICML 2017

Online Learning to Rank in Stochastic Click Models ICML 2017

Sequential Multiple Hypothesis Testing with Type I Error Control AISTATS 2017

Conservative Contextual Linear Bandits NIPS 2017

Active Learning for Accurate Estimation of Linear Models ICML 2017

Bottleneck Conditional Density Estimation ICML 2017

Improved Learning Complexity in Combinatorial Pure Exploration Bandits AISTATS 2016

Analysis of Classification-based Policy Iteration Algorithms JMLR 2016

Bayesian Policy Gradient and Actor-Critic Algorithms JMLR 2016

Proximal Gradient Temporal Difference Learning Algorithms IJCAI 2016

Regularized Policy Iteration with Nonparametric Function Spaces JMLR 2016

Safe Policy Improvement by Minimizing Robust Baseline Regret NIPS 2016

Approximate Modified Policy Iteration and its Application to the Game of Tetris JMLR 2015

High Confidence Policy Improvement ICML 2015

Policy Gradient for Coherent Risk Measures NIPS 2015

Personalized Ad Recommendation Systems for Life-Time Value Optimization with Guarantees IJCAI 2015

Maximum Entropy Semi-Supervised Inverse Reinforcement Learning IJCAI 2015

Algorithms for CVaR Optimization in MDPs NIPS 2014

Actor-Critic Algorithms for Risk-Sensitive MDPs NIPS 2013

Approximate Dynamic Programming Finally Performs Well in the Game of Tetris NIPS 2013

A Generalized Kernel Approach to Structured Output Learning ICML 2013

Cost-sensitive Multiclass Classification Risk Bounds ICML 2013

Best Arm Identification: A Unified Approach to Fixed Budget and Fixed Confidence NIPS 2012

Finite-Sample Analysis of Least-Squares Policy Iteration JMLR 2012

Multi-Bandit Best Arm Identification NIPS 2011

Speedy Q-Learning NIPS 2011

LSTD with Random Projections NIPS 2010

Finite-sample Analysis of Bellman Residual Minimization ACML 2010

Regularized Policy Iteration NIPS 2008

Hierarchical Average Reward Reinforcement Learning JMLR 2007

Incremental Natural Actor-Critic Algorithms NIPS 2007

Bayesian Policy Gradient Algorithms NIPS 2006