Reinforcement Learning

Why Pass@k Optimization Can Degrade Pass@1: Prompt Interference in LLM Post-training

Policy Gradients for Cumulative Prospect Theory in Reinforcement Learning

On the Global Optimality of Policy Gradient Methods in General Utility Reinforcement Learning

Policy Mirror Descent with Lookahead

Reinforcement Learning with General Utilities: Simpler Variance Reduction and Large State-Action Space

Stochastic Policy Gradient Methods: Improved Sample Complexity for Fisher-non-degenerate Policies

Analysis of a Target-Based Actor-Critic Algorithm with Linear Function Approximation