PrismRAG: Boosting RAG Factuality with Distractor Resilience and Strategized Reasoning

Mohammad Kachuee; Teja Gollapudi; Minseok Kim; Yin Huang; Kai Sun; Xiao Yang; Jiaqi Wang; Nirav Shah; Yue Liu; Aaron Colak; Anuj Kumar; Wen-tau Yih; Xin Luna Dong

2025 EMNLP EMNLP 2025

PrismRAG: Boosting RAG Factuality with Distractor Resilience and Strategized Reasoning

Abstract

AbstractRetrieval-augmented generation (RAG) often falls short when retrieved context includes confusing semi-relevant passages, or when answering questions require deep contextual understanding and reasoning. We propose an efficient fine-tuning framework, called PrismRAG, that (i) trains the model with distractor-aware QA pairs mixing gold evidence with subtle distractor passages, and (ii) instills reasoning-centric habits that make the LLM plan, rationalize, and synthesize without relying on extensive human engineered instructions. Evaluated across 12 open-book RAG QA benchmarks spanning diverse application domains and scenarios, PrismRAG improves average factuality by 5.4%, outperforming state-of-the-art solutions. Our method is being deployed in production.

🌉 Interdisciplinary Bridge — Artificial Intelligence and Deep Learning and Knowledge & Reasoning and Machine Learning and Natural Language Processing

🧭 Keyword Pioneer — distractor resilience

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Knowledge & Reasoning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Robotics, Security & Privacy, Speech & Audio

Authors

Mohammad Kachuee , Teja Gollapudi , Minseok Kim , Yin Huang , Kai Sun , Xiao Yang , Jiaqi Wang , Nirav Shah , Yue Liu , Aaron Colak , Anuj Kumar , Wen-tau Yih , Xin Luna Dong

Topics

Machine Learning > Learning Types > Self-Supervised Learning Natural Language Processing > Applications > Information Retrieval Natural Language Processing > Applications > Question Answering Knowledge & Reasoning > Reasoning Artificial Intelligence > Core AI > Reasoning Deep Learning > Models > Large Language Models Machine Learning > Learning Types > Retrieval-Augmented Generation Natural Language Processing > Generation > Retrieval-Augmented Generation Deep Learning > Learning Types > Retrieval-Augmented Generation

Keywords

question answering retrieval-augmented generation knowledge retrieval distractor resilience distractor-aware training

Download PDF

Related papers

Bit-Flip Error Resilience in LLMs: A Comprehensive Analysis and Defense Framework 2025

VoiceCraft-X: Unifying Multilingual, Voice-Cloning Speech Synthesis and Speech Editing 2025

Model-based Large Language Model Customization as Service 2025

ZoomEye: Enhancing Multimodal LLMs with Human-Like Zooming Capabilities through Tree-Based Image Exploration 2025

SlideCoder: Layout-aware RAG-enhanced Hierarchical Slide Generation from Design 2025