Machine translation Evaluation Eng-Thai MQM Ranking dataset

Phichet Phuangrot; Natdanai Trintawat; Kanawat Vilasri; Yanapat Patcharawiwatpong; Pachara Boonsarngsuk; Nat Pavasant; Ekapol Chuangsuwanich

2026 EACL EACL 2026

Machine translation Evaluation Eng-Thai MQM Ranking dataset

Abstract

AbstractWe introduce MEET-MR (Machine Translation English–Thai MQM and Ranking Dataset), a comprehensive benchmark for evaluating English–Thai machine translation systems. The dataset is constructed using the Multidimensional Quality Metrics (MQM) annotation framework, providing fine-grained human judgements of translation quality. In addition, MEET-MR includes human preference rankings and reference translations, enabling both absolute and relative assessment of translation quality. The dataset covers nine diverse domains providing linguistic and contextual diversity. By combining high-quality reference translations, objective MQM error annotations, and subjective preference rankings, MEET-MR serves as a valuable resource for studying translation quality estimation, model alignment with human evaluation, and cross-domain performance in English–Thai machine translation. MEET-MR is publicly available at https://huggingface.co/datasets/Chula-AI/MEET-MR

🧭 Keyword Pioneer — english-thai translation

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Knowledge & Reasoning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Robotics, Security & Privacy, Speech & Audio

Authors

Phichet Phuangrot , Natdanai Trintawat , Kanawat Vilasri , Yanapat Patcharawiwatpong , Pachara Boonsarngsuk , Nat Pavasant , Ekapol Chuangsuwanich

Topics

Natural Language Processing > Applications > Machine Translation

Keywords

machine translation benchmark dataset translation quality mqm framework english-thai translation

Download PDF

Related papers

Investigating Gender Stereotypes in Large Language Models via Social Determinants of Health 2026

A Benchmark for Audio Reasoning Capabilities of Multimodal Large Language Models 2026

InfiGUIAgent: A Multimodal Generalist GUI Agent with Native Reasoning and Reflection 2026

Generative Personality Simulation via Theory-Informed Structured Interview 2026

Word Surprisal Correlates with Sentential Contradiction in LLMs 2026