nmT5 - Is parallel data still relevant for pre-training massively multilingual language models?

Mihir Kale; Aditya Siddhant; Rami Al-Rfou; Linting Xue; Noah Constant; Melvin Johnson

2021 ACL ACL 2021

nmT5 - Is parallel data still relevant for pre-training massively multilingual language models?

Abstract

AbstractRecently, mT5 - a massively multilingual version of T5 - leveraged a unified text-to-text format to attain state-of-the-art results on a wide variety of multilingual NLP tasks. In this paper, we investigate the impact of incorporating parallel data into mT5 pre-training. We find that multi-tasking language modeling with objectives such as machine translation during pre-training is a straightforward way to improve performance on downstream multilingual and cross-lingual tasks. However, the gains start to diminish as the model capacity increases, suggesting that parallel data might not be as essential for larger models. At the same time, even at larger model sizes, we find that pre-training with parallel data still provides benefits in the limited labelled data regime

❓ The Questioner

🌉 Interdisciplinary Bridge — Deep Learning and Natural Language Processing

🐣 Hot Topic Early Bird — language model pretraining

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Knowledge & Reasoning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Security & Privacy, Speech & Audio

Authors

Mihir Kale , Aditya Siddhant , Rami Al-Rfou , Linting Xue , Noah Constant , Melvin Johnson

Topics

Natural Language Processing > Generation > Language Modeling Natural Language Processing > Resources & Methods > Large Language Models Natural Language Processing > Resources & Methods > Multilingual NLP Natural Language Processing > Generation > Machine Translation Natural Language Processing > Resources & Methods > Pretraining Deep Learning > Learning Types > Multi-Lingual Learning

Keywords

machine translation cross-lingual transfer parallel datum multilingual language model language model pretraining

Download PDF

Related papers

Out-of-Scope Intent Detection with Self-Supervision and Discriminative Training 2021

A Non-Autoregressive Edit-Based Approach to Controllable Text Simplification 2021

How Did This Get Funded?! Automatically Identifying Quirky Scientific Achievements 2021

Exploring Discourse Structures for Argument Impact Classification 2021

Language Embeddings for Typology and Cross-lingual Transfer Learning 2021