ArbEngVec : Arabic-English Cross-Lingual Word Embedding Model

Raki Lachraf; El Moatez Billah Nagoudi; Youcef Ayachi; Ahmed Abdelali; Didier Schwab

2019 ACL ACL 2019

ArbEngVec : Arabic-English Cross-Lingual Word Embedding Model

Abstract

AbstractWord Embeddings (WE) are getting increasingly popular and widely applied in many Natural Language Processing (NLP) applications due to their effectiveness in capturing semantic properties of words; Machine Translation (MT), Information Retrieval (IR) and Information Extraction (IE) are among such areas. In this paper, we propose an open source ArbEngVec which provides several Arabic-English cross-lingual word embedding models. To train our bilingual models, we use a large dataset with more than 93 million pairs of Arabic-English parallel sentences. In addition, we perform both extrinsic and intrinsic evaluations for the different word embedding model variants. The extrinsic evaluation assesses the performance of models on the cross-language Semantic Textual Similarity (STS), while the intrinsic evaluation is based on the Word Translation (WT) task.

🌉 Interdisciplinary Bridge — Machine Learning and Natural Language Processing

🐣 Hot Topic Early Bird — semantic textual similarity

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Knowledge & Reasoning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Security & Privacy, Speech & Audio

Authors

Raki Lachraf , El Moatez Billah Nagoudi , Youcef Ayachi , Ahmed Abdelali , Didier Schwab

Topics

Machine Learning > Core Methods > Embedding Learning Natural Language Processing > Applications > Information Retrieval Natural Language Processing > Applications > Machine Translation Natural Language Processing > Resources & Methods > Multilingual NLP Natural Language Processing > Resources & Methods > Text Representation Machine Learning > Learning Types > Representation Learning

Keywords

machine translation cross-lingual embedding information retrieval parallel corpus cross-lingual word embedding semantic textual similarity bilingual model word translation

Download PDF

Related papers

What do phone embeddings learn about Phonology? 2019

Unsupervised Morphological Segmentation for Low-Resource Polysynthetic Languages 2019

Understanding Undesirable Word Embedding Associations 2019

Inferential Machine Comprehension: Answering Questions by Recursively Deducing the Evidence Chain from Text 2019

Domain Adaptation of Neural Machine Translation by Lexicon Induction 2019