MS2SL: Multimodal Spoken Data-Driven Continuous Sign Language Production

Jian Ma; Wenguan Wang; Yi Yang; Feng Zheng

2024 ACL ACL 2024

MS2SL: Multimodal Spoken Data-Driven Continuous Sign Language Production

Abstract

AbstractSign language understanding has made significant strides; however, there is still no viable solution for generating sign sequences directlyfrom entire spoken content, e.g., text or speech. In this paper, we propose a unified framework for continuous sign language production, easing communication between sign and non-sign language users. In particular, a sequence diffusion model, utilizing embeddings extracted from text or speech, is crafted to generate sign predictions step by step. Moreover, by creating a joint embedding space for text, audio, and sign, we bind these modalities and leverage the semantic consistency among them to provide informative feedback for the model training. This embedding-consistency learning strategy minimizes the reliance on sign triplets and ensures continuous model refinement, evenwith a missing audio modality. Experiments on How2Sign and PHOENIX14T datasets demonstrate that our model achieves competitive performance in sign language production.

🌉 Interdisciplinary Bridge — Computer Vision and Deep Learning and Natural Language Processing and Speech & Audio

🧭 Keyword Pioneer — sequence diffusion model

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Knowledge & Reasoning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Robotics, Security & Privacy, Speech & Audio

Authors

Jian Ma , Wenguan Wang , Yi Yang , Feng Zheng

Topics

Deep Learning > Models > Diffusion Models Computer Vision > Generation > Video Generation Computer Vision > Domain-Specific > Egocentric Vision Natural Language Processing > Generation > Language Modeling Speech & Audio > Recognition > Speech Recognition Deep Learning > Learning Types > Multi-Modal Learning

Keywords

sequence generation speech recognition multimodal learning diffusion model multimodal embedding joint embedding space sign language production continuous sign language sequence diffusion model embedding-consistency learning

Download PDF

Related papers

Reinforcement Learning-Driven LLM Agent for Automated Attacks on LLMs 2024

EtymoLink: A Structured English Etymology Dataset 2024

Turkish Delights: A Dataset on Turkish Euphemisms 2024

Subjectivity Detection in English News using Large Language Models 2024

Does DetectGPT Fully Utilize Perturbation? Bridging Selective Perturbation to Fine-tuned Contrastive Learning Detector would be Better 2024