The HW-TSC’s Simultaneous Speech-to-Text Translation System for IWSLT 2023 Evaluation

Jiaxin Guo; Daimeng Wei; Zhanglin Wu; Zongyao Li; Zhiqiang Rao; Minghan Wang; Hengchao Shang; Xiaoyu Chen; Zhengzhe Yu; Shaojun Li; Yuhao Xie; Lizhi Lei; Hao Yang

2023 ACL ACL 2023

The HW-TSC’s Simultaneous Speech-to-Text Translation System for IWSLT 2023 Evaluation

Abstract

AbstractIn this paper, we present our submission to the IWSLT 2023 Simultaneous Speech-to-Text Translation competition. Our participation involves three language directions: English-German, English-Chinese, and English-Japanese. Our proposed solution is a cascaded incremental decoding system that comprises an ASR model and an MT model. The ASR model is based on the U2++ architecture and can handle both streaming and offline speech scenarios with ease. Meanwhile, the MT model adopts the Deep-Transformer architecture. To improve performance, we explore methods to generate a confident partial target text output that guides the next MT incremental decoding process. In our experiments, we demonstrate that our simultaneous strategies achieve low latency while maintaining a loss of no more than 2 BLEU points when compared to offline systems.

🌉 Interdisciplinary Bridge — Artificial Intelligence and Deep Learning and Natural Language Processing and Speech & Audio

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Knowledge & Reasoning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Robotics, Security & Privacy, Speech & Audio

Authors

Jiaxin Guo , Daimeng Wei , Zhanglin Wu , Zongyao Li , Zhiqiang Rao , Minghan Wang , Hengchao Shang , Xiaoyu Chen , Zhengzhe Yu , Shaojun Li , Yuhao Xie , Lizhi Lei , Hao Yang

Topics

Artificial Intelligence > Core AI > Multimodal Learning Deep Learning > Architectures > Transformers Speech & Audio > Recognition > Automatic Speech Recognition Natural Language Processing > Generation > Machine Translation Speech & Audio > Recognition > Speech Translation

Keywords

transformer architecture machine translation neural machine translation automatic speech recognition simultaneous translation simultaneous speech translation incremental decoding cascaded decoding

Download PDF

History Semantic Graph Enhanced Conversational KBQA with Temporal Information Modeling 2023

Efficient Transformers with Dynamic Token Pooling 2023

HHU at SemEval-2023 Task 3: An Adapter-based Approach for News Genre Classification 2023

NAP at SemEval-2023 Task 3: Is Less Really More? (Back-)Translation as Data Augmentation Strategies for Detecting Persuasion Techniques 2023

The HW-TSC’s Simultaneous Speech-to-Text Translation System for IWSLT 2023 Evaluation

Abstract

Authors

Topics

Keywords

Related papers