Weiwei Sun

I am a PhD student at LTI, Carnegie Mellon University, advised by Yiming Yang. Before that, I received my M.E. and B.E. from Shandong University, advised by Zhaochun Ren.

My recent research focuses on LLM agents for long-horizon [Fold/PPP] scientific reasoning [CoMind/Co-Bench] and information retrieval [ZeroGR/MMOA].

Email / Twitter / LinkedIn / Google Scholar / Github

Publications

Mind the Sim2Real Gap in User Simulation for Agentic Tasks
Xuhui Zhou, Weiwei Sun, Qianou Ma, Yiqing Xie, Jiarui Liu, Weihua Du, Sean Welleck, Yiming Yang, Graham Neubig, Sherry Tongshuang Wu, Maarten Sap
Preprint
paper

GradAlign: Gradient-Aligned Data Selection for LLM Reinforcement Learning
Ningyuan Yang, Weihua Du, Weiwei Sun, Sean Welleck, Yiming Yang
Preprint
paper / code

Deep Research: A Systematic Survey

Zhengliang Shi, Yiqun Chen, Haitao Li, Weiwei Sun, Shiyu Ni, Yougang Lyu, Run-Ze Fan, Bowen Jin, et al.

Yixuan Weng, Minjun Zhu, Qiujie Xie, Xinyu Guo, Qu Yang, Jiayi Wu, Jujia Zhao, Xiaqiang Tang, Xinbei Ma, Cunxiang Wang, Jiaxin Mao, Qingyao Ai, Jen-Tse Huang, Wenxuan Wang, Yue Zhang, Yiming Yang, Zhaopeng Tu, Zhaochun Ren

Preprint
paper / code

Training Proactive and Personalized LLM Agents
Weiwei Sun, Xuhui Zhou, Weihua Du, Xingyao Wang, Sean Welleck, Graham Neubig, Maarten Sap, Yiming Yang
Preprint
paper / code / blog

Scaling Long-Horizon LLM Agent via Context-Folding
Weiwei Sun, Miao Lu, Zhan Ling, Kang Liu, Xuesong Yao, Yiming Yang, Jiecao Chen
Preprint
paper / code

Scaling LLM Multi-turn RL with End-to-end Summarization-based Context Management
Miao Lu, Weiwei Sun, Weihua Du, Zhan Ling, Xuesong Yao, Kang Liu, Jiecao Chen
Preprint
paper

ReasonRank: Empowering Passage Ranking with Strong Reasoning Ability
Wenhan Liu, Xinyu Ma, Weiwei Sun, Yutao Zhu, Yuchen Li, Dawei Yin, Zhicheng Dou
Preprint
paper / code

CoMind: Towards Community-Driven Agents for Machine Learning Engineering
Sijie Li, Weiwei Sun, Shanda Li, Ameet Talwalkar, Yiming Yang
ICLR 2026, MTI-LLM@NeurIPS 2025
paper / code

FrontierCO: A Comprehensive Evaluation of Contemporary ML-Based Solvers for Combinatorial Optimization
Shengyu Feng, Weiwei Sun, Shanda Li, Ameet Talwalkar, Yiming Yang
ICLR 2026, AI4MATH@ICML 2025
paper / code / data

ZeroGR: A Generalizable and Scalable Framework for Zero-Shot Generative Retrieval
Weiwei Sun, Keyi Kong, Xinyu Ma, Shuaiqiang Wang, Dawei Yin, Maarten de Rijke, Zhaochun Ren, Yiming Yang
ICLR 2026
paper

CO-Bench: Benchmarking Language Model Agents in Algorithm Search for Combinatorial Optimization
Weiwei Sun, Shengyu Feng, Shanda Li, Yiming Yang
AAAI 2026
paper / code / benchmark

2025

Enhancing Training Data Attribution with Representational Optimization
Weiwei Sun, Haokun Liu, Nikhil Kandpal, Colin Raffel, Yiming Yang
NeurIPS 2025 (Spotlight)
paper / code

Improving Retrieval-Augmented Generation through Multi-Agent Reinforcement Learning
Yiqun Chen, Lingyong Yan, Weiwei Sun, Xinyu Ma, Yi Zhang, Shuaiqiang Wang, Dawei Yin, Yiming Yang, Jiaxin Mao
NeurIPS 2025
paper / code

CodePDE: An Inference Framework for LLM-driven PDE Solver Generation
Shanda Li, Tanya Marwah, Junhong Shen, Weiwei Sun, Andrej Risteski, Yiming Yang, Ameet Talwalkar
TMLR
paper / code

Direct Retrieval-augmented Optimization: Synergizing Knowledge Selection and Language Models
Zhengliang Shi, Lingyong Yan, Weiwei Sun, Yue Feng, Pengjie Ren, Xinyu Ma, Shuaiqiang Wang, Dawei Yin, Maarten de Rijke, Zhaochun Ren
ACM TOIS
paper / code

TourRank: Utilizing Large Language Models for Documents Ranking with a Tournament-Inspired Strategy
Yiqun Chen, Qi Liu, Yi Zhang, Weiwei Sun, Daiting Shi, Jiaxin Mao, Dawei Yin
WWW 2025
paper / code

2024

MAIR: A Massive Benchmark for Evaluating Instructed Retrieval
Weiwei Sun, Zhengliang Shi, Jiulong Wu, Lingyong Yan, Xinyu Ma, Yiding Liu, Min Cao, Dawei Yin, Zhaochun Ren
EMNLP 2024
paper / data / code

MEFT: Memory-Efficient Fine-Tuning through Sparse Adapter
Jitai Hao, Weiwei Sun, Xin Xin, Qi Meng, Zhumin Chen, Pengjie Ren, Zhaochun Ren
ACL 2024
paper / code

Generate-then-Ground in Retrieval-Augmented Generation for Multi-hop Question Answering
Zhengliang Shi, Shuo Zhang, Weiwei Sun, Shen Gao, Pengjie Ren, Zhumin Chen, Zhaochun Ren
ACL 2024
paper

Enhanced Generative Recommendation via Content and Collaboration Integration
Yidan Wang, Zhaochun Ren, Weiwei Sun, Jiyuan Yang, Zhixiang Liang, Xin Chen, Ruobing Xie, Su Yan, Xu Zhang, Pengjie Ren, Zhumin Chen, Xin Xin
CIKM 2024
paper / code

Improving the Robustness of Large Language Models via Consistency Alignment
Yukun Zhao, Lingyong Yan, Weiwei Sun, Guoliang Xing, Shuaiqiang Wang, Chong Meng, Zhicong Cheng, Zhaochun Ren, Dawei Yin
LREC-Coling 2024
paper

How Large Language Models Encode Context Knowledge? A Layer-Wise Probing Study
Tianjie Ju, Weiwei Sun, Wei Du, Xinwei Yuan, Zhaochun Ren, Gongshen Liu
LREC-Coling 2024
paper / code

Knowing What LLMs DO NOT Know: A Simple Yet Effective Self-Detection Method
Yukun Zhao, Lingyong Yan, Weiwei Sun, Guoliang Xing, Chong Meng, Shuaiqiang Wang, Zhicong Cheng, Zhaochun Ren, Dawei Yin
NAACL 2024
paper / code

2023

Instruction Distillation Makes Large Language Models Efficient Zero-shot Rankers
Weiwei Sun, Zheng Chen, Xinyu Ma, Lingyong Yan, Shuaiqiang Wang, Pengjie Ren, Zhumin Chen, Dawei Yin, Zhaochun Ren
CCIR 2023, GenRec@CIKM 2023
paper / code

Learning to Tokenize for Generative Retrieval
Weiwei Sun, Lingyong Yan, Zheng Chen, Shuaiqiang Wang, Haichao Zhu, Pengjie Ren, Zhumin Chen, Maarten de Rijke, Zhaochun Ren.
NeurIPS 2023
paper / code

Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agents
Weiwei Sun, Lingyong Yan, Xinyu Ma, Shuaiqiang Wang, Pengjie Ren, Zhumin Chen, Dawei Yin, Zhaochun Ren.
EMNLP 2023 (Outstanding Paper Award)
paper / code

DiQAD: A Benchmark Dataset for End-to-end Open-domain Dialogue Assessment
Yukun Zhao, Lingyong Yan, Weiwei Sun, Chong Meng, Shuaiqiang Wang, Zhicong Cheng, Zhaochun Ren, Dawei Yin.
Findings of EMNLP 2023
paper / code

Answering Ambiguous Questions via Iterative Prompting
Weiwei Sun, Hengyi Cai, Hongshen Chen, Pengjie Ren, Zhumin Chen, Maarten de Rijke, Zhaochun Ren.
ACL 2023
paper / code

RADE: Reference-Assisted Dialogue Evaluation for Open-Domain Dialogue
Zhengliang Shi, Weiwei Sun, Shuo Zhang, Zhen Zhang, Pengjie Ren, Zhaochun Ren.
ACL 2023
paper / code

Towards Explainable Conversational Recommender Systems
Shuyu Guo, Shuo Zhang, Weiwei Sun, Pengjie Ren, Zhumin Chen, Zhaochun Ren.
SIGIR 2023
paper / code

Generative Knowledge Selection for Knowledge-Grounded Dialogues
Weiwei Sun, Pengjie Ren, Zhaochun Ren.
Findings of EACL 2023
paper / code

Contrastive Learning Reduces Hallucination in Conversations
Weiwei Sun, Zhengliang Shi, Shen Gao, Pengjie Ren, Maarten de Rijke, Zhaochun Ren.
AAAI 2023
paper / code

Before 2023

Metaphorical User Simulators for Evaluating Task-oriented Dialogue Systems
Weiwei Sun, Shuyu Guo, Shuo Zhang, Pengjie Ren, Zhumin Chen, Maarten de Rijke, Zhaochun Ren.
ACM TOIS
paper / code (SimTester) / code (MetaSim)

Simulating User Satisfaction for the Evaluation of Task-oriented Dialogue Systems
Weiwei Sun, Shuo Zhang, Krisztian Balog, Zhaochun Ren, Pengjie Ren, Zhumin Chen, Maarten de Rijke.
SIGIR 2021
paper / code

Conversations Powered by Cross-Lingual Knowledge
Weiwei Sun, Chuan Meng, Qi Meng, Zhaochun Ren, Pengjie Ren, Zhumin Chen, Maarten de Rijke.
SIGIR 2021
paper / code

DukeNet: A Dual Knowledge Interaction Network for Knowledge-Grounded Conversation
Chuan Meng, Pengjie Ren, Zhumin Chen, Weiwei Sun, Zhaochun Ren, Zhaopeng Tu, Maarten de Rijke.
SIGIR 2020
paper / code

Education

PhD, Language Technologies Institute, Carnegie Mellon University, 2024.8 - present

M.E., Computer Science, Shandong University, 2021.9 - 2023.12

B.E., Computer Science, Shandong University, 2017.9 - 2021.6

Internship

ByteDance Seed, Mentor: Jiecao Chen, 2025.5 - 2025.8

Vector Institute, Mentor: Colin Raffel, 2024.7 - 2024.8

University of Amsterdam, IR Lab, Mentor: Maarten de Rijke, remote, 2024

Baidu, Search Science Team, Mentor: Lingyong Yan and Xinyu Ma, 2022.9 - 2023.12

JD.com, Data Science Lab, Mentor: Hongshen Chen and Hengyi Cai, 2021.3 - 2021.9

Shandong University, IR Lab, Mentor: Zhaochun Ren, 2019.9 - 2021.3

Award

LTI Presidential Fellowship, 2025.8

2023 Baidu Scholarship, 2024.1

Outstanding Paper Award, EMNLP 2023, 2023.12

Presidential Scholarship, Shandong University, 2023.11

National Scholarship, Shandong University, 2023.11

Reviewer

EMNLP 2022, ACL 2023, SIGIR 2023, SIGIR-AP 2023, ECML/PKDD 2023, IPM 2023, WSDM 2023, EMNLP 2023, TALLIP 2023, SIGIR 2024, EMNLP 2024, NeurIPS 2024, CIKM 2024, ICLR 2025, AISTATS 2025, ICML 2025, NeurIPS 2025, ICLR 2025

The design of this website is borrowed from here