An Expanded Massive Multilingual Dataset for High-Performance Language Technologies (HPLT)

Laurie Burchell; Ona de Gibert; Nikolay Arefyev; Mikko Aulamo; Marta Bañón; Pinzhen Chen; Mariia Fedorova; Liane Guillou; Barry Haddow; Jan Hajic; Jindřich Helcl; Erik Henriksson; Mateusz Klimaszewski; Ville Komulainen; Andrey Kutuzov; Joona Kytöniemi; Veronika Laippala; Petter Mæhlum; Bhavitvya Malik; Farrokh Mehryary; Vladislav Mikhailov; Nikita Moghe; Amanda Myntti; Dayyán O’Brien; Stephan Oepen; Proyag Pal; Jousia Piha; Sampo Pyysalo; Gema Ramírez-Sánchez; David Samuel; Pavel Stepachev; Jörg Tiedemann; Dušan Variš; Tereza Vojtěchová; Jaume Zaragoza-Bernabeu

2025 ACL ACL 2025

An Expanded Massive Multilingual Dataset for High-Performance Language Technologies (HPLT)

Abstract

AbstractTraining state-of-the-art large language models requires vast amounts of clean and diverse textual data. However, building suitable multilingual datasets remains a challenge. In this work, we present HPLT v2, a collection of high-quality multilingual monolingual and parallel corpora, extending prior work of the HPLT project. The monolingual portion of the data contains 8T tokens covering 193 languages, while the parallel data contains 380M sentence pairs covering 51 languages. We document the entire data pipeline and release the code to reproduce it. We provide extensive analysis of the quality and characteristics of our data. Finally, we evaluate the performance of language models and machine translation systems trained on HPLT v2, demonstrating its value.

👥 Mega-Team — 35 authors

🐝 Cross-Pollinator — Artificial Intelligence, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Knowledge & Reasoning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Speech & Audio

🌉 Interdisciplinary Bridge — Deep Learning and Natural Language Processing

Authors

Laurie Burchell , Ona de Gibert , Nikolay Arefyev , Mikko Aulamo , Marta Bañón , Pinzhen Chen , Mariia Fedorova , Liane Guillou , Barry Haddow , Jan Hajic , Jindřich Helcl , Erik Henriksson , Mateusz Klimaszewski , Ville Komulainen , Andrey Kutuzov , Joona Kytöniemi , Veronika Laippala , Petter Mæhlum , Bhavitvya Malik , Farrokh Mehryary , Vladislav Mikhailov , Nikita Moghe , Amanda Myntti , Dayyán O’Brien , Stephan Oepen , Proyag Pal , Jousia Piha , Sampo Pyysalo , Gema Ramírez-Sánchez , David Samuel , Pavel Stepachev , Jörg Tiedemann , Dušan Variš , Tereza Vojtěchová , Jaume Zaragoza-Bernabeu

Topics

Deep Learning > Techniques > Pretraining Natural Language Processing > Applications > Machine Translation Natural Language Processing > Resources & Methods > Multilingual NLP

Keywords

machine translation parallel corpus language model parallel datum corpus quality language model pretraining multilingual corpus

Download PDF

Graphically Speaking: Unmasking Abuse in Social Media with Conversation Insights 2025

CodeTool: Enhancing Programmatic Tool Invocation of LLMs via Process Supervision 2025

Structural Deep Encoding for Table Question Answering 2025

Vision-aided Unsupervised Constituency Parsing with Multi-MLLM Debating 2025

An Expanded Massive Multilingual Dataset for High-Performance Language Technologies (HPLT)

Abstract

Authors

Topics

Keywords

Related papers