WikiCREM: A Large Unsupervised Corpus for Coreference Resolution

Vid Kocijan; Oana-Maria Camburu; Ana-Maria Cretu; Yordan Yordanov; Phil Blunsom; Thomas Lukasiewicz

2019 IJCNLP IJCNLP 2019

WikiCREM: A Large Unsupervised Corpus for Coreference Resolution

Abstract

AbstractPronoun resolution is a major area of natural language understanding. However, large-scale training sets are still scarce, since manually labelling data is costly. In this work, we introduce WikiCREM (Wikipedia CoREferences Masked) a large-scale, yet accurate dataset of pronoun disambiguation instances. We use a language-model-based approach for pronoun resolution in combination with our WikiCREM dataset. We compare a series of models on a collection of diverse and challenging coreference resolution problems, where we match or outperform previous state-of-the-art approaches on 6 out of 7 datasets, such as GAP, DPR, WNLI, PDP, WinoBias, and WinoGender. We release our model to be used off-the-shelf for solving pronoun disambiguation.

🌉 Interdisciplinary Bridge — Machine Learning and Natural Language Processing

🧭 Keyword Pioneer — unsupervised corpus

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Knowledge & Reasoning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Robotics, Security & Privacy, Speech & Audio

Authors

Vid Kocijan , Oana-Maria Camburu , Ana-Maria Cretu , Yordan Yordanov , Phil Blunsom , Thomas Lukasiewicz

Topics

Machine Learning > Learning Types > Unsupervised Learning Natural Language Processing > Understanding > Coreference Resolution

Keywords

coreference resolution language model pronoun resolution pronoun disambiguation unsupervised corpus

Download PDF

Related papers

Fine-grained Knowledge Fusion for Sequence Labeling Domain Adaptation 2019

Exploiting Monolingual Data at Scale for Neural Machine Translation 2019

Distributionally Robust Language Modeling 2019

Unsupervised Domain Adaptation of Contextualized Embeddings for Sequence Labeling 2019

ARAML: A Stable Adversarial Training Framework for Text Generation 2019