CheckEval: A reliable LLM-as-a-Judge framework for evaluating text generation using checklists

Yukyung Lee; JoongHoon Kim; Jaehee Kim; Hyowon Cho; Jaewook Kang; Pilsung Kang; Najoung Kim

2025 EMNLP EMNLP 2025

CheckEval: A reliable LLM-as-a-Judge framework for evaluating text generation using checklists

Abstract

AbstractExisting LLM-as-a-Judge approaches for evaluating text generation suffer from rating inconsistencies, with low agreement and high rating variance across different evaluator models. We attribute this to subjective evaluation criteria combined with Likert scale scoring in existing protocols. To address this issue, we introduce CheckEval, a checklist-based evaluation framework that improves rating reliability via decomposed binary questions. Through experiments with 12 evaluator models across multiple datasets, we first demonstrate that CheckEval strongly correlates with human judgments. More importantly, CheckEval dramatically improves the average agreement across evaluator models by 0.45 and reduces the score variance. CheckEval scores furthermore have the benefit of being more interpretable because it decomposes evaluation criteria into traceable binary decisions, allowing analyses of specific attributes driving quality judgments.

🌉 Interdisciplinary Bridge — Machine Learning and Natural Language Processing

🧭 Keyword Pioneer — checklist-based evaluation

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Knowledge & Reasoning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Robotics, Security & Privacy, Speech & Audio

Authors

Yukyung Lee , JoongHoon Kim , Jaehee Kim , Hyowon Cho , Jaewook Kang , Pilsung Kang , Najoung Kim

Topics

Natural Language Processing > Generation > Text Generation Machine Learning > Learning Types > Evaluation

Keywords

text generation llm evaluation text generation evaluation large language model checklist-based evaluation binary question rating consistency rating reliability decomposed binary question

Download PDF

Related papers

Bit-Flip Error Resilience in LLMs: A Comprehensive Analysis and Defense Framework 2025

VoiceCraft-X: Unifying Multilingual, Voice-Cloning Speech Synthesis and Speech Editing 2025

Model-based Large Language Model Customization as Service 2025

ZoomEye: Enhancing Multimodal LLMs with Human-Like Zooming Capabilities through Tree-Based Image Exploration 2025

SlideCoder: Layout-aware RAG-enhanced Hierarchical Slide Generation from Design 2025