CCQA: A New Web-Scale Question Answering Dataset for Model Pre-Training

Patrick Huber; Armen Aghajanyan; Barlas Oguz; Dmytro Okhonko; Scott Yih; Sonal Gupta; Xilun Chen

2022 NAACL NAACL 2022

CCQA: A New Web-Scale Question Answering Dataset for Model Pre-Training

Abstract

AbstractWe propose a novel open-domain question-answering dataset based on the Common Crawl project. With a previously unseen number of around 130 million multilingual question-answer pairs (including about 60 million English data-points), we use our large-scale, natural, diverse and high-quality corpus to in-domain pre-train popular language models for the task of question-answering. In our experiments, we find that our Common Crawl Question Answering dataset (CCQA) achieves promising results in zero-shot, low resource and fine-tuned settings across multiple tasks, models and benchmarks.

🌉 Interdisciplinary Bridge — Artificial Intelligence and Natural Language Processing

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Knowledge & Reasoning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Robotics, Security & Privacy, Speech & Audio