Search

Home
News
Researches
Publications
People

Light Dark Automatic

Qing-Shan Jia

Latest

Query-Policy Misalignment in Preference-Based Reinforcement Learning
Mind the Gap: Offline Policy Optimization for Imperfect Rewards

© 2026 - AIR-DREAM Lab.

Published with Hugo Blox Builder — the free, open source website builder that empowers creators.

Cite