HW-TSC’s Participation at WMT 2021 Quality Estimation Shared Task

Yimeng Chen; Chang Su; Yingtao Zhang; Yuxia Wang; Xiang Geng; Hao Yang; Shimin Tao; Guo JiaXin; Wang Minghan; Min Zhang; Yujia Liu; Shujian Huang

2021 EMNLP EMNLP 2021

HW-TSC’s Participation at WMT 2021 Quality Estimation Shared Task

Abstract

AbstractThis paper presents our work in WMT 2021 Quality Estimation (QE) Shared Task. We participated in all of the three sub-tasks, including Sentence-Level Direct Assessment (DA) task, Word and Sentence-Level Post-editing Effort task and Critical Error Detection task, in all language pairs. Our systems employ the framework of Predictor-Estimator, concretely with a pre-trained XLM-Roberta as Predictor and task-specific classifier or regressor as Estimator. For all tasks, we improve our systems by incorporating post-edit sentence or additional high-quality translation sentence in the way of multitask learning or encoding it with predictors directly. Moreover, in zero-shot setting, our data augmentation strategy based on Monte-Carlo Dropout brings up significant improvement on DA sub-task. Notably, our submissions achieve remarkable results over all tasks.

🌉 Interdisciplinary Bridge — Deep Learning and Natural Language Processing

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Knowledge & Reasoning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Robotics, Security & Privacy, Speech & Audio

Authors

Yimeng Chen , Chang Su , Yingtao Zhang , Yuxia Wang , Xiang Geng , Hao Yang , Shimin Tao , Guo JiaXin , Wang Minghan , Min Zhang , Yujia Liu , Shujian Huang

Topics

Deep Learning > Architectures > Transformers Natural Language Processing > Applications > Machine Translation Deep Learning > Models > Transformers Natural Language Processing > Applications > Quality Estimation

Keywords

zero-shot learning data augmentation quality estimation multitask learning word-level prediction multilingual transformer monte carlo dropout post-editing effort

Download PDF

Related papers

Continual Learning in Multilingual NMT via Language-Specific Embeddings 2021

MultiDoc2Dial: Modeling Dialogues Grounded in Multiple Documents 2021

Efficient Multi-Task Auxiliary Learning: Selecting Auxiliary Data by Feature Similarity 2021

Neural Machine Translation with Heterogeneous Topic Knowledge Embeddings 2021

Semantics-Preserved Data Augmentation for Aspect-Based Sentiment Analysis 2021