Selected Publications

Check out the latest update at Google Scholar
(* indicates equal contribution)

2025

RESTRAIN: From Spurious Votes to Signals--Self-Driven RL with Self-Penalization.
Zhaoning Yu*, Will Su*, Leitian Tao, Haozhu Wang, Aashu Singh, Hanchao Yu, Jianyu Wang, Hongyang Gao, Weizhe Yuan, Jason Weston, Ping Yu**, Jing Xu**. ICLR 2026
Hybrid Reinforcement: When Reward Is Sparse, It's Better to Be Dense.
Leitian Tao, Ilia Kulikov, Swarnadeep Saha, Tianlu Wang, Jing Xu, Sharon Li, Jason E Weston, Ping Yu. ICLR 2026
The era of real-world human interaction: Rl from user conversations.
Chuanyang Jin, Jing Xu*, Bo Liu*, Leitian Tao, Olga Golovneva, Tianmin Shu, Wenting Zhao, Xian Li, Jason Weston.
Cot-Self-Instruct: Building high-quality synthetic prompts for reasoning and non-reasoning tasks.
Ping Yu, Jack Lanchantin, Tianlu Wang, Weizhe Yuan, Olga Golovneva, Ilia Kulikov, Sainbayar Sukhbaatar, Jason Weston, Jing Xu.
An Overview of Large Language Models for Statisticians.
Wenlong Ji*, Weizhe Yuan*, Emily Getzen, Kyunghyun Cho, Michael I. Jordan, Song Mei, Jason Weston, Weijie J. Su**, Jing Xu**, Linjun Zhang**.
RIP: Better Models by Survival of the Fittest Prompts.
Ping Yu, Weizhe Yuan, Olga Golovneva, Tianhao Wu, Sainbayar Sukhbaatar, Jason Weston, Jing Xu. ICML 2025

Self-Consistency Preference Optimization.
Archiki Prasad, Weizhe Yuan, Richard Yuanzhe Pang, Jing Xu, Maryam Fazel-Zarandi, Mohit Bansal, Sainbayar Sukhbaatar, Jason Weston, Jane Yu. ICML 2025
Meta-rewarding language models: Self-improving alignment with llm-as-a-meta-judge.
Tianhao Wu, Weizhe Yuan, Olga Golovneva, Jing Xu, Yuandong Tian, Jiantao Jiao, Jason Weston, Sainbayar Sukhbaatar. EMNLP 2025
Distilling System 2 into System 1.
Ping Yu, Jing Xu, Jason Weston, Ilia Kulikov. NeurIPS System-2 Reasoning at Scale Workshop 2024
Following length constraints in instructions.
Weizhe Yuan, Ilia Kulikov, Ping Yu, Kyunghyun Cho, Sainbayar Sukhbaatar, Jason Weston, Jing Xu. EMNLP 2025
Self-Rewarding Language Models .
Weizhe Yuan, Richard Yuanzhe Pang, Kyunghyun Cho, Xian Li, Sainbayar Sukhbaatar, Jing Xu, Jason Weston. ICML 2024

Some things are more CRINGE than others: Iterative Preference Optimization with the Pairwise Cringe Loss.
Jing Xu, Andrew Lee, Sainbayar Sukhbaatar, Jason Weston
Chain-of-verification reduces hallucination in large language models.
Shehzaad Dhuliawala, Mojtaba Komeili, Jing Xu, Roberta Raileanu, Xian Li, Asli Celikyilmaz, Jason Weston. Findings of ACL 2024
Improving Open Language Models by Learning from Organic Interactions.
Jing Xu, Da Ju, Joshua Lane, Mojtaba Komeili, Eric Michael Smith, Megan Ung, Morteza Behrooz, William Ngan, Rashel Moritz, Sainbayar Sukhbaatar, Y-Lan Boureau, Jason Weston*, Kurt Shuster*.

On Anytime Learning at Macroscale.
Lucas Caccia, Jing Xu, Myle Ott, Marcaurelio Ranzato, Ludovic Denoyer. Conference on Lifelong Learning Agents (CoLLAs), 2022
The CRINGE loss: Learning what language not to model.
Leonard Adolphs, Tianyu Gao, Jing Xu, Kurt Shuster, Sainbayar Sukhbaatar, Jason Weston.
When life gives you lemons, make cherryade: Converting feedback from bad responses into good labels.
Weiyan Shi, Emily Dinan, Kurt Shuster, Jason Weston, Jing Xu. NAACL 2024
BlenderBot 3: a deployed conversational agent that continually learns to responsibly engage.
Kurt Shuster*, Jing Xu*, Mojtaba Komeili*, Da Ju*, Eric Michael Smith, Stephen Roller, Megan Ung, Moya Chen, Kushal Arora, Joshua Lane, Morteza Behrooz, William Ngan, Spencer Poff, Naman Goyal, Arthur Szlam, Y-Lan Boureau, Melanie Kambadur, Jason Weston
Learning New Skills after Deployment: Improving open-domain internet-driven dialogue with human feedback.
Jing Xu, Megan Ung, Mojtaba Komeili, Kushal Arora, Y-Lan Boureau, Jason Weston. ACL 2023

Recipes for safety in open-domain chatbots .
Jing Xu, Da Ju, Margaret Li, Y-Lan Boureau, Jason Weston, Emily Dinan.
Recipes for building an open-domain chatbot .
Stephen Roller, Emily Dinan, Naman Goyal, Da Ju, Mary Williamson, Yinhan Liu, Jing Xu, Myle Ott, Kurt Shuster, Eric M. Smith, Y-Lan Boureau, Jason Weston. EACL 2021