Generating a Training Corpus for OCR Post-Correction Using Encoder-Decoder Model

Eva D’hondt; Cyril Grouin; Brigitte Grau

2017 IJCNLP IJCNLP 2017

Generating a Training Corpus for OCR Post-Correction Using Encoder-Decoder Model

Abstract

AbstractIn this paper we present a novel approach to the automatic correction of OCR-induced orthographic errors in a given text. While current systems depend heavily on large training corpora or external information, such as domain-specific lexicons or confidence scores from the OCR process, our system only requires a small amount of (relatively) clean training data from a representative corpus to learn a character-based statistical language model using Bidirectional Long Short-Term Memory Networks (biLSTMs). We demonstrate the versatility and adaptability of our system on different text corpora with varying degrees of textual noise, including a real-life OCR corpus in the medical domain.

🌉 Interdisciplinary Bridge — Artificial Intelligence and Deep Learning and Natural Language Processing

🧭 Keyword Pioneer — ocr correction

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Knowledge & Reasoning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Security & Privacy, Speech & Audio

Authors

Eva D’hondt , Cyril Grouin , Brigitte Grau

Topics

Artificial Intelligence > Learning Paradigms > Transfer Learning Deep Learning > Architectures > Neural Networks Natural Language Processing > Generation > Text Generation Natural Language Processing > Resources & Methods > Language Modeling Natural Language Processing > Applications > Text Generation

Keywords

bidirectional lstm encoder-decoder model character model statistical language model ocr correction character-based language model ocr post-correction

Download PDF

Related papers

Procedural Text Generation from an Execution Video 2017

DailyDialog: A Manually Labelled Multi-turn Dialogue Dataset 2017

Roles and Success in Wikipedia Talk Pages: Identifying Latent Patterns of Behavior 2017

PubMed 200k RCT: a Dataset for Sequential Sentence Classification in Medical Abstracts 2017

Alibaba at IJCNLP-2017 Task 1: Embedding Grammatical Features into LSTMs for Chinese Grammatical Error Diagnosis Task 2017