Improving Data Driven Inverse Text Normalization using Data Augmentation and Machine Translation

Debjyoti Paul; Yutong Pang; Szu-Jui Chen; Xuedong Zhang

2022 INTERSPEECH INTERSPEECH 2022

Improving Data Driven Inverse Text Normalization using Data Augmentation and Machine Translation

Abstract

Inverse text normalization (ITN) is used to convert the spoken form output of an automatic speech recognition (ASR) system to a written form. Traditional handcrafted ITN rules can be complex to transcribe and maintain. Meanwhile neural modeling approaches require quality large-scale spoken-written pair exam ples in the same or similar domain as the ASR system (in-domain data), to train. Both these approaches require costly and complex annotation. In this paper, we present a data augmentation tech nique with neural machine translation that effectively generates rich spoken-written pairs for high and low resource languages effectively. We empirically demonstrate that ITN models (in tar get language) trained using our data augmentation with machine translation technique can achieve similar performance as ITN models (en) trained directly with in-domain language.

🌉 Interdisciplinary Bridge — Machine Learning and Natural Language Processing and Speech & Audio

🧭 Keyword Pioneer — inverse text normalization

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Knowledge & Reasoning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Speech & Audio

Authors

Debjyoti Paul , Yutong Pang , Szu-Jui Chen , Xuedong Zhang

Topics

Machine Learning > Application Areas > Data Augmentation Natural Language Processing > Applications > Machine Translation Speech & Audio > Recognition > Automatic Speech Recognition Natural Language Processing > Generation > Machine Translation

Keywords

machine translation data augmentation automatic speech recognition neural modeling inverse text normalization spoken-written pair

Download PDF

Related papers

Example-based Explanations with Adversarial Attacks for Respiratory Sound Analysis 2022

Which Model is Best: Comparing Methods and Metrics for Automatic Laughter Detection in a Naturalistic Conversational Dataset 2022

Evidence of Onset and Sustained Neural Responses to Isolated Phonemes from Intracranial Recordings in a Voice-based Cursor Control Task 2022

Pre-trained Speech Representations as Feature Extractors for Speech Quality Assessment in Online Conferencing Applications 2022

Exploring the influence of fine-tuning data on wav2vec 2.0 model for blind speech quality prediction 2022