A New Dataset and Efficient Baselines for Document-level Text Simplification in German

Annette Rios; Nicolas Spring; Tannon Kew; Marek Kostrzewa; Andreas Säuberli; Mathias Müller; Sarah Ebling

2021 EMNLP EMNLP 2021

A New Dataset and Efficient Baselines for Document-level Text Simplification in German

Abstract

AbstractThe task of document-level text simplification is very similar to summarization with the additional difficulty of reducing complexity. We introduce a newly collected data set of German texts, collected from the Swiss news magazine 20 Minuten (‘20 Minutes’) that consists of full articles paired with simplified summaries. Furthermore, we present experiments on automatic text simplification with the pretrained multilingual mBART and a modified version thereof that is more memory-friendly, using both our new data set and existing simplification corpora. Our modifications of mBART let us train at a lower memory cost without much loss in performance, in fact, the smaller mBART even improves over the standard model in a setting with multiple simplification levels.

📈 Trend Setter — Text Simplification

🧭 Keyword Pioneer — document-level simplification

🐣 Hot Topic Early Bird — german language

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Knowledge & Reasoning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Security & Privacy, Speech & Audio

Authors

Annette Rios , Nicolas Spring , Tannon Kew , Marek Kostrzewa , Andreas Säuberli , Mathias Müller , Sarah Ebling

Topics

Natural Language Processing > Generation > Summarization Natural Language Processing > Resources & Methods > Multilingual NLP Natural Language Processing > Applications > Summarization Natural Language Processing > Applications > Text Simplification

Keywords

multilingual nlp german language text simplification document-level simplification multilingual bart document-level text simplification text simplification dataset

Download PDF

Related papers

Continual Learning in Multilingual NMT via Language-Specific Embeddings 2021

MultiDoc2Dial: Modeling Dialogues Grounded in Multiple Documents 2021

Efficient Multi-Task Auxiliary Learning: Selecting Auxiliary Data by Feature Similarity 2021

Neural Machine Translation with Heterogeneous Topic Knowledge Embeddings 2021

Semantics-Preserved Data Augmentation for Aspect-Based Sentiment Analysis 2021