Head

About Me

Hi~🍹 I am Yu Xia (夏羽), a 2nd-year CSE PhD student at University of California San Diego, where I am working with Prof. Julian McAuley on Large Language Models and Recommender Systems.

I earned my bachelor’s degree from Shanghai Jiao Tong University and master’s degree from University of Michigan. I have previously interned at Snowflake and Adobe.

My research focuses on developing LLM & LLM Agents that actively and continuously learn from experience and improve at i) adaptive reasoning, ii) reinforced decision making, and iii) personalized recommendations.

News

05/2026 🌋: Our multi-objective alignment paper is accepted to ICML 2026!
04/2026 🌋: Check out our new work HiLL, which learns to generate adaptive and transferable hints via RL for addressing GRPO signal collapse!
04/2026 🌋: I am joining Meta this summer as a research scientist intern. See you at the Bay Area!

Selected Publications

Learning to Hint for Reinforcement Learning
Yu Xia, Canwen Xu, Zhewei Yao, Julian McAuley, Yuxiong He.
arXiv 2026 [Paper]
Multi-Agent Collaborative Filtering: Orchestrating Users and Items for Agentic Recommendations
Yu Xia, Sungchul Kim, Tong Yu, Ryan A. Rossi, Julian McAuley.
WWW 2026 [Paper]
SAND: Boosting LLM Agents with Self-Taught Action Deliberation
Yu Xia, Yiran Shen, Junda Wu, Tong Yu, Sungchul Kim, Ryan A. Rossi, Lina Yao, Julian McAuley.
EMNLP 2025 [Paper]
From Selection to Generation: A Survey of LLM-based Active Learning
Yu Xia*, Subhojyoti Mukherjee*, Zhouhang Xie, Junda Wu, Xintong Li, Ryan Aponte, Hanjia Lyu, Joe Barrow, Hongjie Chen, Franck Dernoncourt, Branislav Kveton, Tong Yu, Ruiyi Zhang, Jiuxiang Gu, Nesreen K Ahmed, Yu Wang, Xiang Chen, Hanieh Deilamsalehy, Sungchul Kim, Zhengmian Hu, Yue Zhao, Nedim Lipka, Seunghyun Yoon, Ting-Hao Kenneth Huang, Zichao Wang, Puneet Mathur, Soumyabrata Pal, Koyel Mukherjee, Zhehao Zhang, Namyong Park, Thien Huu Nguyen, Jiebo Luo, Ryan A. Rossi, Julian McAuley.
ACL 2025 [Paper]
Knowledge-Aware Query Expansion with Large Language Models for Textual and Relational Retrieval
Yu Xia, Junda Wu, Sungchul Kim, Tong Yu, Ryan A. Rossi, Haoliang Wang, Julian McAuley.
NAACL 2025 [Paper]
Beyond Chain-of-Thought: A Survey of Chain-of-X Paradigms for LLMs
Yu Xia, Rui Wang, Xu Liu, Mingyan Li, Tong Yu, Xiang Chen, Julian McAuley, Shuai Li.
COLING 2025 [Paper]
Aligning as Debiasing: Causality-Aware Alignment via Reinforcement Learning with Interventional Feedback
Yu Xia, Tong Yu, Zhankui He, Handong Zhao, Julian McAuley, Shuai Li.
NAACL 2024 [Paper]
Hallucination Diversity-Aware Active Learning for Text Summarization
Yu Xia, Xu Liu, Tong Yu, Sungchul Kim, Ryan A. Rossi, Anup Rao, Tung Mai, Shuai Li.
NAACL 2024 [Paper]
Which LLM to Play? Convergence-Aware Online Model Selection with Time-Increasing Bandits
Yu Xia*, Fang Kong*, Tong Yu, Liya Guo, Ryan A. Rossi, Sungchul Kim, Shuai Li.
WWW 2024 Oral [Paper]
Towards Joint Utilization of Absolute and Relative Bandit Feedback for Conversational Recommendation
Yu Xia*, Zhihui Xie*, Tong Yu, Canzhe Zhao, Shuai Li.
UMUAI 2024 Special Issue on CRS [Paper]
User-Regulation Deconfounded Conversational Recommender System with Bandit Feedback
Yu Xia, Junda Wu, Tong Yu, Sungchul Kim, Ryan A. Rossi, Shuai Li.
KDD 2023 [Paper]

Presentations

SAND: Boosting LLM Agents with Self-Taught Action Deliberation
AI / LLM Agents Session at EMNLP’25, Suzhou. [Poster]
Knowledge-Aware Query Expansion with Large Language Models for Textual and Relational Retrieval
Information Retrieval and Text Mining Session at NAACL’25, Albuquerque, NM. [Poster]
Which LLM to Play? Convergence-Aware Online Model Selection with Time-Increasing Bandits
Web Mining Session at WWW’24, Singapore. [Poster] [Slides] [Video]
User-Regulation Deconfounded Conversational Recommender System with Bandit Feedback
Conversational AI Session at KDD’23, Long Beach, CA. [Poster] [Slides]

CV

Educations

University of California San Diego, 2024-Now
Ph.D. in Computer Science and Engineering
University of Michigan, 2022-2024
M.S. in Information
🦶 Shanghai Jiao Tong University, 2019-2023
B.Eng. in Electrical and Computer Engineering

Experiences

Research Scientist Intern
- Snowflake, 09/2025 - 03/2026 (Mentor: Dr. Canwei Xu)
- Adobe, 06/2025 - 09/2025 (Mentor: Dr. Sungchul Kim)
- Adobe, 06/2024 - 11/2024 (Mentor: Dr. Sungchul Kim)
Conference Reviewer
- RecSys’23, WWW’24, NAACL’24, COLING’25, WWW’25, NAACL’25, ACL’25, EMNLP’25, EACL’26, ICLR’26, ACL’26
Conference Volunteer
- NAACL’24

Interesting Projects

FLEE [Game Link] [Code]: An interactive web game of an intersteller journey!
🕵️ A Study in Red [Link]: A funny interative fanfiction of Sherlock Holmes that I have no idea when I wrote it!
Science Fiction Text Generation [Link]
Beer Recommender System [Link]

Awards

University of Michigan - Shanghai Jiao Tong University Yu Liming Scholarship, 2021
Shanghai Jiao Tong University Outstanding Undergraduate Award, 2021
University of Michigan - Shanghai Jiao Tong University Yu Liming Scholarship, 2020
Shanghai Jiao Tong University Outstanding Undergraduate Award, 2020

Visitors

Full Publication List

Click to expand

Simultaneous Multi-objective Alignment Across Verifiable and Non-verifiable Rewards
Yiran Shen, Yu Xia, Jonathan Chang, Prithviraj Ammanabrolu.
ICML 2026 [Paper]
CachePrune: Neural-Based Attribution Defense Against Indirect Prompt Injection Attacks
Rui Wang, Junda Wu, Yu Xia, Tong Yu, Ruiyi Zhang, Ryan Rossi, Subrata Mitra, Lina Yao, Julian McAuley.
ACL 2026 [Paper]
Multi-Agent Collaborative Filtering: Orchestrating Users and Items for Agentic Recommendations
Yu Xia, Sungchul Kim, Tong Yu, Ryan A. Rossi, Julian McAuley.
WWW 2026 [Paper]
A Survey on LLM-based Conversational User Simulation
Bo Ni, Leyao Wang, Yu Wang, Branislav Kveton, Franck Dernoncourt, Yu Xia, Hongjie Chen, Reuben Leura, Samyadeep Basu, Subhojyoti Mukherjee, Puneet Mathur, Nesreen Ahmed, Junda Wu, Li Li, Huixin Zhang, Ruiyi Zhang, Tong Yu, Sungchul Kim, Jiuxiang Gu, Zhengzhong Tu, Alexa Siu, Zichao Wang, David Seunghyun Yoon, Nedim Lipka, Namyong Park, Zihao Lin, Trung Bui, Yue Zhao, Tyler Derr, Ryan A. Rossi.
EACL 2026 [Paper]
SAND: Boosting LLM Agents with Self-Taught Action Deliberation
Yu Xia, Yiran Shen, Junda Wu, Tong Yu, Sungchul Kim, Ryan A. Rossi, Lina Yao, Julian McAuley.
EMNLP 2025 [Paper]
Mitigating Visual Knowledge Forgetting in MLLM Instruction-tuning via Modality-decoupled Gradient Descent
Junda Wu, Yuxin Xiong, Xintong Li, Yu Xia, Ruoyu Wang, Yu Wang, Tong Yu, Sungchul Kim, Ryan A Rossi, Lina Yao, Jingbo Shang, Julian McAuley.
EMNLP 2025 Findings [Paper]
In-context Ranking Preference Optimization
Junda Wu, Rohan Surana, Zhouhang Xie, Yiran Shen, Yu Xia, Tong Yu, Ryan A Rossi, Prithviraj Ammanabrolu, Julian McAuley.
COLM 2025 [Paper]
A Survey on Personalized and Pluralistic Preference Alignment in Large Language Models
Zhouhang Xie, Junda Wu, Yiran Shen, Yu Xia, Xintong Li, Aaron Chang, Ryan Rossi, Sachin Kumar, Bodhisattwa Prasad Majumder, Jingbo Shang, Prithviraj Ammanabrolu, Julian McAuley.
COLM 2025 [Paper]
From Selection to Generation: A Survey of LLM-based Active Learning
Yu Xia*, Subhojyoti Mukherjee*, Zhouhang Xie, Junda Wu, Xintong Li, Ryan Aponte, Hanjia Lyu, Joe Barrow, Hongjie Chen, Franck Dernoncourt, Branislav Kveton, Tong Yu, Ruiyi Zhang, Jiuxiang Gu, Nesreen K Ahmed, Yu Wang, Xiang Chen, Hanieh Deilamsalehy, Sungchul Kim, Zhengmian Hu, Yue Zhao, Nedim Lipka, Seunghyun Yoon, Ting-Hao Kenneth Huang, Zichao Wang, Puneet Mathur, Soumyabrata Pal, Koyel Mukherjee, Zhehao Zhang, Namyong Park, Thien Huu Nguyen, Jiebo Luo, Ryan A. Rossi, Julian McAuley.
ACL 2025 [Paper]
Doc-React: Multi-page Heterogeneous Document Question-answering
Junda Wu, Yu Xia, Tong Yu, Xiang Chen, Sai Sree Harsha, Akash V Maharaj, Ruiyi Zhang, Victor Bursztyn, Sungchul Kim, Ryan A Rossi, Julian McAuley, Yunyao Li, Ritwik Sinha.
ACL 2025 [Paper]
GUI Agents: A Survey
Dang Nguyen, Jian Chen, Yu Wang, Gang Wu, Namyong Park, Zhengmian Hu, Hanjia Lyu, Junda Wu, Ryan Aponte, Yu Xia, Xintong Li, Jing Shi, Hongjie Chen, Viet Dac Lai, Zhouhang Xie, Sungchul Kim, Ruiyi Zhang, Tong Yu, Mehrab Tanjim, Nesreen K Ahmed, Puneet Mathur, Seunghyun Yoon, Lina Yao, Branislav Kveton, Thien Huu Nguyen, Trung Bui, Tianyi Zhou, Ryan A Rossi, Franck Dernoncourt.
ACL 2025 Findings [Paper]
OCEAN: Offline Chain-of-thought Evaluation and Alignment in Large Language Models
Junda Wu, Xintong Li, Ruoyu Wang, Yu Xia, Yuxin Xiong, Jianing Wang, Tong Yu, Xiang Chen, Branislav Kveton, Lina Yao, Jingbo Shang, Julian McAuley.
ICLR 2025 [Paper]
Knowledge-Aware Query Expansion with Large Language Models for Textual and Relational Retrieval
Yu Xia, Junda Wu, Sungchul Kim, Tong Yu, Ryan A. Rossi, Haoliang Wang, Julian McAuley.
NAACL 2025 [Paper]
Beyond Chain-of-Thought: A Survey of Chain-of-X Paradigms for LLMs
Yu Xia, Rui Wang, Xu Liu, Mingyan Li, Tong Yu, Xiang Chen, Julian McAuley, Shuai Li.
COLING 2025 [Paper]
Embedding-Informed Adaptive Retrieval-Augmented Generation of Large Language Models
Chengkai Huang, Yu Xia, Rui Wang, Kaige Xie, Tong Yu, Julian McAuley, Lina Yao.
COLING 2025 [Paper]
The Closeness of In-Context Learning and Weight Shifting for Softmax Regression
(Alphabetical Order) Shuai Li, Zhao Song, Yu Xia, Tong Yu, Tianyi Zhou.
NeurIPS 2024 [Paper]
Aligning as Debiasing: Causality-Aware Alignment via Reinforcement Learning with Interventional Feedback
Yu Xia, Tong Yu, Zhankui He, Handong Zhao, Julian McAuley, Shuai Li.
NAACL 2024 [Paper]
Hallucination Diversity-Aware Active Learning for Text Summarization
Yu Xia, Xu Liu, Tong Yu, Sungchul Kim, Ryan A. Rossi, Anup Rao, Tung Mai, Shuai Li.
NAACL 2024 [Paper]
Which LLM to Play? Convergence-Aware Online Model Selection with Time-Increasing Bandits
Yu Xia*, Fang Kong*, Tong Yu, Liya Guo, Ryan A. Rossi, Sungchul Kim, Shuai Li.
WWW 2024 Oral [Paper]
Towards Joint Utilization of Absolute and Relative Bandit Feedback for Conversational Recommendation
Yu Xia*, Zhihui Xie*, Tong Yu, Canzhe Zhao, Shuai Li.
UMUAI 2024 Special Issue on CRS [Paper]
User-Regulation Deconfounded Conversational Recommender System with Bandit Feedback
Yu Xia, Junda Wu, Tong Yu, Sungchul Kim, Ryan A. Rossi, Shuai Li.
KDD 2023 [Paper]