Data-Driven Decision-Making Algorithms

Last updated on Jun 25, 2024

Generated by Microsoft Designer

A main research direction for the AIR-DREAM Lab is to develop high-performance, robust, generalizable, and real-world deployable data-driven decision-making algorithms. We are specifically interested in offline policy learning methods, such as offline reinforcement learning (RL), offline imitation learning (IL), and offline planning, which enable a simulation-free and low-cost solution to address many real-world problems.

Our current research focus include:

Sample-efficient / high-generalization offline RL / IL / planning algorithms
Foundation models for decision-making
Safe offline RL algorithms
Hybrid RL that combines offline and online policy learning
Offline policy learning under imperfect reward
Feedback-efficient RLHF

Publications

Bidirectional-Reachable Hierarchical Reinforcement Learning with Mutually Responsive Policies

Hierarchical reinforcement learning (HRL) addresses complex long-horizon tasks by skillfully decomposing them into subgoals. Therefore, …

Yu Luo, Fuchun Sun, Tianying Ji, Xianyuan Zhan

Instruction-Guided Visual Masking

Instruction following is crucial in contemporary LLM. However, when extended to multimodal setting, it often suffers from misalignment …

Jinliang Zheng, Jianxiong Li, Sijie Cheng, Yinan Zheng, Jiaming Li, Jihao Liu, Yu Liu, Jingjing Liu, Xianyuan Zhan

Instruction-Guided Visual Masking

OMPO: A Unified Framework for RL under Policy and Dynamics Shifts

Training reinforcement learning policies using environment interaction data collected from varying policies or dynamics presents a …

Yu Luo, Tianying Ji, Fuchun Sun, Jianwei Zhang, Huazhe Xu, Xianyuan Zhan

Offline-Boosted Actor-Critic: Adaptively Blending Optimal Historical Behaviors in Deep Off-Policy RL

Off-policy reinforcement learning (RL) has achieved notable success in tackling many complex real-world tasks, by leveraging previously …

Yu Luo, Tianying Ji, Fuchun Sun, Jianwei Zhang, Huazhe Xu, Xianyuan Zhan

DecisionNCE: Embodied Multimodal Representations via Implicit Preference Learning

Multimodal pretraining has emerged as an effective strategy for the trinity of goals of representation learning in autonomous robots: …

Jianxiong Li, Jinliang Zheng, Yinan Zheng, Liyuan Mao, Xiao Hu, Sijie Cheng, Haoyi Niu, Jihao Liu, Yu Liu, Jingjing Liu, Others

Seizing Serendipity: Exploiting the Value of Past Success in Off-Policy Actor-Critic

Learning high-quality Q-value functions plays a key role in the success of many modern off-policy deep reinforcement learning (RL) …

Tianying Ji, Yu Luo, Fuchun Sun, Xianyuan Zhan, Jianwei Zhang, Huazhe Xu

A Comprehensive Survey of Cross-Domain Policy Transfer for Embodied Agents

The burgeoning fields of robot learning and embodied AI have triggered an increasing demand for large quantities of data. However, …

Haoyi Niu, Jianming Hu, Guyue Zhou, Xianyuan Zhan

Query-Policy Misalignment in Preference-Based Reinforcement Learning

Preference-based reinforcement learning (PbRL) provides a natural way to align RL agents’ behavior with human desired outcomes, but is …

Xiao Hu, Jianxiong Li, Xianyuan Zhan, Qing-Shan Jia, Ya-Qin Zhang

Revealing the Mystery of Distribution Correction Estimation via Orthogonal-gradient Update

In this study, we investigate the DIstribution Correction Estimation (DICE) methods, an important line of work in offline reinforcement …

Liyuan Mao, Haoran Xu, Weinan Zhang, Xianyuan Zhan

Safe Offline Reinforcement Learning with Feasibility-Guided Diffusion Model

Safe offline reinforcement learning is a promising way to bypass risky online interactions towards safe policy learning. Most existing …

Yinan Zheng, Jianxiong Li, Dongjie Yu, Yujie Yang, Shengbo Eben Li, Xianyuan Zhan, Jingjing Liu

FlexSSL : A Generic and Efficient Framework for Semi-Supervised Learning

Semi-supervised learning holds great promise for many real-world applications, due to its ability to leverage both unlabeled and …

Huiling Qin, Xianyuan Zhan, Yuanxun Li, Yu Zheng

A Fully Data-Driven Approach for Realistic Traffic Signal Control Using Offline Reinforcement Learning

The optimization of traffic signal control (TSC) is critical for an efficient transportation system. In recent years, reinforcement …

Jianxiong Li, Shichao Lin, Tianyu Shi, Chujie Tian, Yu Mei, Jian Song, Xianyuan Zhan, Ruimin Li

H2O+: An Improved Framework for Hybrid Offline-and-Online RL with Dynamics Gaps

Solving real-world complex tasks using reinforcement learning (RL) without high-fidelity simulation environments or large amounts of …

Haoyi Niu, Tianying Ji, Bingqi Liu, Haocheng Zhao, Xiangyu Zhu, Jianying Zheng, Pengfei Huang, Guyue Zhou, Jianming Hu, Xianyuan Zhan

Look Beneath the Surface: Exploiting Fundamental Symmetry for Sample-Efficient Offline RL

Offline reinforcement learning (RL) offers an appealing approach to real-world tasks by learning policies from pre-collected datasets …

Peng Cheng, Xianyuan Zhan, Zhihao Wu, Wenjia Zhang, Shoucheng Song, Han Wang, Youfang Lin, Li Jiang

Offline Multi-Agent Reinforcement Learning with Implicit Global-to-Local Value Regularization

Offline reinforcement learning (RL) has received considerable attention in recent years due to its attractive capability of learning …

Xiangsen Wang, Haoran Xu, Yinan Zheng, Xianyuan Zhan

PROTO: Iterative Policy Regularized Offline-to-Online Reinforcement Learning

Offline-to-online reinforcement learning (RL), by combining the benefits of offline pretraining and online finetuning, promises …

Jianxiong Li, Xiao Hu, Haoran Xu, Jingjing Liu, Xianyuan Zhan, Ya-Qin Zhang

Offline RL with No OOD Actions: In-Sample Learning via Implicit Value Regularization

Based on the IVR framework, we further propose two practical algorithms, Sparse Q-learning (SQL) and Exponential Q-learning (EQL), which adopt the same value regularization used in existing works, but in a complete in-sample manner.

Haoran Xu, Li Jiang, Jianxiong Li, Zhuoran Yang, Zhaoran Wang, Victor Wai Kin Chan, Xianyuan Zhan

Offline RL with No OOD Actions: In-Sample Learning via Implicit Value Regularization

When Data Geometry Meets Deep Function: Generalizing Offline Reinforcement Learning

DOGE marries dataset geometry with deep function approximators in offline RL, and enables exploitation in generalizable OOD areas rather than strictly constraining policy within data distribution.

Jianxiong Li, Xianyuan Zhan, Haoran Xu, Xiangyu Zhu, Jingjing Liu, Ya-Qin Zhang

When Data Geometry Meets Deep Function: Generalizing Offline Reinforcement Learning

An Efficient Multi-Agent Optimization Approach for Coordinated Massive MIMO Beamforming

Beamforming plays an important role in 5G Massive Multiple-Input Multiple-Output (MMIMO) communications. Optimizing beamforming …

Li Jiang, Xiangsen Wang, Aidong Yang, Xidong Wang, Xiaojia Jin, Wei Wang, Xiaozhou Ye, Ye Ouyang, Xianyuan Zhan

Mind the Gap: Offline Policy Optimization for Imperfect Rewards

This paper proposes an offline policy optimization approach for imperfect rewards. Abstract: Reward function is essential in …

Jianxiong Li, Xiao Hu, Haoran Xu, Jingjing Liu, Xianyuan Zhan, Qing-Shan Jia, Ya-Qin Zhang

Offline Multi-Agent Reinforcement Learning with Coupled Value Factorization

Offline reinforcement learning (RL) that learns policies from offline datasets without environment interaction has received …

Xiangsen Wang, Xianyuan Zhan

When to Trust Your Simulator: Dynamics-Aware Hybrid Offline-and-Online Reinforcement Learning

H2O introduces a dynamics-aware policy evaluation scheme, which adaptively penalizes the Q function learning on simulated state-action pairs with large dynamics gaps, while also simultaneously allowing learning from a fixed real-world dataset.

Haoyi Niu, Shubham Sharma, Yiwen Qiu, Ming Li, Guyue Zhou, Jianming Hu, Xianyuan Zhan

A Policy-Guided Imitation Approach for Offline Reinforcement Learning

Offline reinforcement learning (RL) methods can generally be categorized into two types: RL-based and Imitation-based. RL-based methods …

Haoran Xu, Li Jiang, Jianxiong Li, Xianyuan Zhan

Discriminator-Guided Model-Based Offline Imitation Learning

Offline imitation learning (IL) is a powerful method to solve decision-making problems from expert demonstrations without reward …

Wenjia Zhang, Haoran Xu, Haoyi Niu, Peng Cheng, Ming Li, Heming Zhang, Guyue Zhou, Xianyuan Zhan

Discriminator-Weighted Offline Imitation Learning from Suboptimal Demonstrations

We study the problem of offline Imitation Learning (IL) where an agent aims to learn an optimal expert behavior policy without …

Haoran Xu, Xianyuan Zhan, Honglei Yin, Huiling Qin

Model-Based Offline Planning with Trajectory Pruning

Offline reinforcement learning (RL) enables learning policies using pre-collected datasets without environment interaction, which …

Xianyuan Zhan, Xiangyu Zhu, Haoran Xu

Constraints Penalized Q-Learning for Safe Offline Reinforcement Learning

We study the problem of safe offline reinforcement learning (RL), the goal is to learn a policy that maximizes long-term reward while …

Haoran Xu, Xianyuan Zhan, Xiangyu Zhu

DeepThermal: Combustion Optimization for Thermal Power Generating Units Using Offline Reinforcement Learning

Optimizing the combustion efficiency of a thermal power generating unit (TPGU) is a highly challenging and critical task in the energy …

Xianyuan Zhan, Haoran Xu, Yue Zhang, Xiangyu Zhu, Honglei Yin, Yu Zheng