PoSum-Bench: Benchmarking Position Bias in LLM-based Conversational Summarization

Xu Sun; Lionel Delphin-Poulat; Christèle Tarnec; Anastasia Shimorina

2025 EMNLP EMNLP 2025

PoSum-Bench: Benchmarking Position Bias in LLM-based Conversational Summarization

Abstract

AbstractLarge language models (LLMs) are increasingly used for zero-shot conversation summarization, but often exhibit positional bias—tending to overemphasize content from the beginning or end of a conversation while neglecting the middle. To address this issue, we introduce PoSum-Bench, a comprehensive benchmark for evaluating positional bias in conversational summarization, featuring diverse English and French conversational datasets spanning formal meetings, casual conversations, and customer service interactions. We propose a novel semantic similarity-based sentence-level metric to quantify the direction and magnitude of positional bias in model-generated summaries, enabling systematic and reference-free evaluation across conversation positions, languages, and conversational contexts.Our benchmark and methodology thus provide the first systematic, cross-lingual framework for reference-free evaluation of positional bias in conversational summarization, laying the groundwork for developing more balanced and unbiased summarization models.

🌉 Interdisciplinary Bridge — Artificial Intelligence and Machine Learning and Natural Language Processing

🧭 Keyword Pioneer — cross-lingual framework

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Knowledge & Reasoning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Robotics, Security & Privacy, Speech & Audio

Authors

Xu Sun , Lionel Delphin-Poulat , Christèle Tarnec , Anastasia Shimorina

Topics

Machine Learning > Core Methods > Metric Learning Natural Language Processing > Generation > Summarization Artificial Intelligence > Core AI > Large Language Models Natural Language Processing > Applications > Summarization Machine Learning > Learning Types > Evaluation

Keywords

benchmark evaluation semantic similarity position bia reference-free evaluation positional bia large language model conversational summarization cross-lingual framework

Download PDF

Related papers

Bit-Flip Error Resilience in LLMs: A Comprehensive Analysis and Defense Framework 2025

VoiceCraft-X: Unifying Multilingual, Voice-Cloning Speech Synthesis and Speech Editing 2025

Model-based Large Language Model Customization as Service 2025

ZoomEye: Enhancing Multimodal LLMs with Human-Like Zooming Capabilities through Tree-Based Image Exploration 2025

SlideCoder: Layout-aware RAG-enhanced Hierarchical Slide Generation from Design 2025