NAIST Simultaneous Speech-to-speech Translation System for IWSLT 2023

Ryo Fukuda; Yuta Nishikawa; Yasumasa Kano; Yuka Ko; Tomoya Yanagita; Kosuke Doi; Mana Makinae; Sakriani Sakti; Katsuhito Sudoh; Satoshi Nakamura

2023 ACL ACL 2023

NAIST Simultaneous Speech-to-speech Translation System for IWSLT 2023

Abstract

AbstractThis paper describes NAIST’s submission to the IWSLT 2023 Simultaneous Speech Translation task: English-to-German, Japanese, Chinese speech-to-text translation and English-to-Japanese speech-to-speech translation. Our speech-to-text system uses an end-to-end multilingual speech translation model based on large-scale pre-trained speech and text models. We add Inter-connections into the model to incorporate the outputs from intermediate layers of the pre-trained speech model and augment prefix-to-prefix text data using Bilingual Prefix Alignment to enhance the simultaneity of the offline speech translation model. Our speech-to-speech system employs an incremental text-to-speech module that consists of a Japanese pronunciation estimation model, an acoustic model, and a neural vocoder.

🌉 Interdisciplinary Bridge — Natural Language Processing and Speech & Audio

🧭 Keyword Pioneer — end-to-end multilingual

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Knowledge & Reasoning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Security & Privacy, Speech & Audio

Authors

Ryo Fukuda , Yuta Nishikawa , Yasumasa Kano , Yuka Ko , Tomoya Yanagita , Kosuke Doi , Mana Makinae , Sakriani Sakti , Katsuhito Sudoh , Satoshi Nakamura

Topics

Speech & Audio > Recognition > Speech Recognition Speech & Audio > Synthesis > Text-to-Speech Natural Language Processing > Generation > Machine Translation Speech & Audio > Synthesis > Speech Synthesis Speech & Audio > Recognition > Speech Translation

Keywords

text-to-speech synthesis speech-to-speech translation end-to-end translation neural vocoder multilingual model simultaneous translation end-to-end multilingual speech translation model

Download PDF

History Semantic Graph Enhanced Conversational KBQA with Temporal Information Modeling 2023

Efficient Transformers with Dynamic Token Pooling 2023

HHU at SemEval-2023 Task 3: An Adapter-based Approach for News Genre Classification 2023

NAP at SemEval-2023 Task 3: Is Less Really More? (Back-)Translation as Data Augmentation Strategies for Detecting Persuasion Techniques 2023

NAIST Simultaneous Speech-to-speech Translation System for IWSLT 2023

Abstract

Authors

Topics

Keywords

Related papers