Benchmarking LLMs on Semantic Overlap Summarization

John Salvador; Naman Bansal; Mousumi Akter; Souvika Sarkar; Anupam Das; Santu Karmaker

2025 EMNLP EMNLP 2025

Benchmarking LLMs on Semantic Overlap Summarization

Abstract

AbstractSemantic Overlap Summarization (SOS) is a multi-document summarization task focused on extracting the common information shared cross alternative narratives which is a capability that is critical for trustworthy generation in domains such as news, law, and healthcare. We benchmark popular Large Language Models (LLMs) on SOS and introduce PrivacyPolicyPairs (3P), a new dataset of 135 high-quality samples from privacy policy documents, which complements existing resources and broadens domain coverage. Using the TELeR prompting taxonomy, we evaluate nearly one million LLM-generated summaries across two SOS datasets and conduct human evaluation on a curated subset. Our analysis reveals strong prompt sensitivity, identifies which automatic metrics align most closely with human judgments, and provides new baselines for future SOS research

🌉 Interdisciplinary Bridge — Artificial Intelligence and Machine Learning and Natural Language Processing

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Knowledge & Reasoning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Robotics, Security & Privacy, Speech & Audio

Authors

John Salvador , Naman Bansal , Mousumi Akter , Souvika Sarkar , Anupam Das , Santu Karmaker

Topics

Natural Language Processing > Generation > Summarization Natural Language Processing > Applications > Information Extraction Natural Language Processing > Resources & Methods > Large Language Models Artificial Intelligence > Core AI > Large Language Models Natural Language Processing > Applications > Summarization Machine Learning > Optimization & Theory > Evaluation Artificial Intelligence > Core AI > Natural Language Processing

Keywords

benchmark evaluation prompt engineering prompt sensitivity human evaluation privacy policy multi-document summarization large language model semantic overlap summarization

Download PDF

Related papers

Bit-Flip Error Resilience in LLMs: A Comprehensive Analysis and Defense Framework 2025

VoiceCraft-X: Unifying Multilingual, Voice-Cloning Speech Synthesis and Speech Editing 2025

Model-based Large Language Model Customization as Service 2025

ZoomEye: Enhancing Multimodal LLMs with Human-Like Zooming Capabilities through Tree-Based Image Exploration 2025

SlideCoder: Layout-aware RAG-enhanced Hierarchical Slide Generation from Design 2025