Search

Anas Barakat

Anas Barakat

Home
Research
Talks
Teaching
CV
Contact

Light Dark Automatic

Policy Mirror Descent with Lookahead

Kimon Protopapas, Anas Barakat

March 2024

Poster Proceedings Arxiv

Type

Conference paper

Publication

NeurIPS 2024

Reinforcement Learning

Related

Why Pass@k Optimization Can Degrade Pass@1: Prompt Interference in LLM Post-training
Policy Gradients for Cumulative Prospect Theory in Reinforcement Learning
On the Global Optimality of Policy Gradient Methods in General Utility Reinforcement Learning
Reinforcement Learning with General Utilities: Simpler Variance Reduction and Large State-Action Space
Stochastic Policy Gradient Methods: Improved Sample Complexity for Fisher-non-degenerate Policies

Powered by the Academic theme for Hugo.

Cite