CMU’s IWSLT 2024 Offline Speech Translation System: A Cascaded Approach For Long-Form Robustness

Brian Yan; Patrick Fernandes; Jinchuan Tian; Siqi Ouyang; William Chen; Karen Livescu; Lei Li; Graham Neubig; Shinji Watanabe

2024 ACL ACL 2024

CMU’s IWSLT 2024 Offline Speech Translation System: A Cascaded Approach For Long-Form Robustness

Abstract

AbstractThis work describes CMU’s submission to the IWSLT 2024 Offline Speech Translation (ST) Shared Task for translating English speech to German, Chinese, and Japanese text. We are the first participants to employ a long-form strategy which directly processes unsegmented recordings without the need for a separate voice-activity detection stage (VAD). We show that the Whisper automatic speech recognition (ASR) model has a hallucination problem when applied out-of-the-box to recordings containing non-speech noises, but a simple noisy fine-tuning approach can greatly enhance Whisper’s long-form robustness across multiple domains. Then, we feed English ASR outputs into fine-tuned NLLB machine translation (MT) models which are decoded using COMET-based Minimum Bayes Risk. Our VAD-free ASR+MT cascade is tested on TED talks, TV series, and workout videos and shown to outperform prior winning IWSLT submissions and large open-source models.

🌉 Interdisciplinary Bridge — Natural Language Processing and Speech & Audio

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Knowledge & Reasoning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Robotics, Security & Privacy, Speech & Audio

Authors

Brian Yan , Patrick Fernandes , Jinchuan Tian , Siqi Ouyang , William Chen , Karen Livescu , Lei Li , Graham Neubig , Shinji Watanabe

Topics

Natural Language Processing > Applications > Machine Translation Speech & Audio > Recognition > Automatic Speech Recognition

Keywords

machine translation automatic speech recognition minimum bayes risk speech translation voice activity detection long-form audio

Download PDF

Related papers

Reinforcement Learning-Driven LLM Agent for Automated Attacks on LLMs 2024

EtymoLink: A Structured English Etymology Dataset 2024

Turkish Delights: A Dataset on Turkish Euphemisms 2024

Subjectivity Detection in English News using Large Language Models 2024

Does DetectGPT Fully Utilize Perturbation? Bridging Selective Perturbation to Fine-tuned Contrastive Learning Detector would be Better 2024