Li Jiang | Publications

Li Jiang's Homepage

Publications (* indicates equal contribution)

Full publication list on Google Scholar.

Li Jiang*, Haoran Xu*, Yichuan Ding, Amy Zhang. "Trajectory-Refined Distillation." Preprint, 2026.
TL;DR: Mitigates prefix failure in on-policy distillation by correcting student rollouts at the trajectory level under teacher guidance, improving reasoning accuracy and coverage.
Li Jiang, Xiao Liu. "LLM Human Response Alignment: A Multi-Sample Debiasing Framework." Preprint, 2026.
TL;DR: Debiases LLM alignment by aggregating multiple sampled responses, reducing single-sample preference noise during human-feedback training.
Wenjie Du, Li Jiang, Keda Tao, Xue Liu, Huan Wang. "Which Heads Matter for Reasoning? RL-Guided KV Cache Compression." International Conference on Machine Learning, 2026.
TL;DR: Uses RL as a probe to identify reasoning-critical attention heads, then aggressively compresses non-critical KV caches — 20–50% cache reduction with minimal accuracy drop.
Li Jiang*, Yusen Wu*, Junwu Xiong, Jingqing Ruan, Yichuan Ding, Qingpei Guo, Zujie Wen, Jun Zhou, Xiaotie Deng. "Hummer: Towards Limited Competitive Preference Dataset." Conference on Language Modeling, 2024.
TL;DR: Reduces conflicting preference signals across alignment objectives via a low-competition preference dataset, improving multi-attribute RLHF stability.
Haoran Xu, Li Jiang, Jianxiong Li, Zhuoran Yang, Zhaoran Wang, Victor Wai Kin Chan, Xianyuan Zhan. "Offline RL with No OOD Actions: In-Sample Learning via Implicit Value Regularization." International Conference on Learning Representations, 2023.
TL;DR: Derives a unified in-sample offline RL framework from implicit value regularization, avoiding queries on out-of-distribution actions while matching SOTA on D4RL.
Notable Top 5%
Li Jiang*, Haoran Xu*, Jianxiong Li, Xianyuan Zhan. "A Policy-Guided Imitation Approach for Offline Reinforcement Learning." Conference on Neural Information Processing Systems, 2022.
TL;DR: Decouples offline RL into a guide-policy that plans optimal next states and an execute-policy that imitates them, sidestepping value extrapolation error.
Oral, Top 2%