FQ-Eval: Building Evaluation Dataset for User-centered Follow-up Question Generation

Sanghyun Seo; Bumsoo Kang; Dahm Lee; Jaeheon Kim; Joongbo Shin; Eui Soon Kim; Kijeong Jeon

2025 EMNLP EMNLP 2025

FQ-Eval: Building Evaluation Dataset for User-centered Follow-up Question Generation

Abstract

AbstractTo effectively support users’ goal achievement in chat-LLM services, providing user-centered follow-up questions is essential. Existing studies primarily focus on enhancing information-seeking or topical relevance, often missing how follow-up questions could satisfy users’ intrinsic needs and conversational goals. To bridge this gap, we introduce FQ-Eval, a user-centered evaluation dataset designed for assessing follow-up question generation in chat-LLM services. FQ-Eval incorporates realistic chat-LLM usage scenarios and five distinct human-aligned criteria, each reflecting user expectations of effective follow-up questions. Experimental results show that FQ-Eval constructed through our approach clearly capture human-aligned criteria, enabling robust, human-aligned follow-up question generation evaluation of various models and services.

🌉 Interdisciplinary Bridge — Machine Learning and Natural Language Processing

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Knowledge & Reasoning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Robotics, Security & Privacy, Speech & Audio

Authors

Sanghyun Seo , Bumsoo Kang , Dahm Lee , Jaeheon Kim , Joongbo Shin , Eui Soon Kim , Kijeong Jeon

Topics

Natural Language Processing > Generation > Dialogue Systems Natural Language Processing > Applications > Question Answering Natural Language Processing > Applications > Dialogue Systems Machine Learning > Learning Types > Evaluation

Keywords

text generation question generation dialogue system follow-up question evaluation dataset conversational goal user-centered design follow-up question generation user-centered evaluation chat language model

Download PDF

Related papers

Bit-Flip Error Resilience in LLMs: A Comprehensive Analysis and Defense Framework 2025

VoiceCraft-X: Unifying Multilingual, Voice-Cloning Speech Synthesis and Speech Editing 2025

Model-based Large Language Model Customization as Service 2025

ZoomEye: Enhancing Multimodal LLMs with Human-Like Zooming Capabilities through Tree-Based Image Exploration 2025

SlideCoder: Layout-aware RAG-enhanced Hierarchical Slide Generation from Design 2025