Hierarchical Fusion for Online Multimodal Dialog Act Classification

Md Messal Monem Miah; Adarsh Pyarelal; Ruihong Huang

2023 EMNLP EMNLP 2023

Hierarchical Fusion for Online Multimodal Dialog Act Classification

Abstract

AbstractWe propose a framework for online multimodal dialog act (DA) classification based on raw audio and ASR-generated transcriptions of current and past utterances. Existing multimodal DA classification approaches are limited by ineffective audio modeling and late-stage fusion. We showcase significant improvements in multimodal DA classification by integrating modalities at a more granular level and incorporating recent advancements in large language and audio models for audio feature extraction. We further investigate the effectiveness of self-attention and cross-attention mechanisms in modeling utterances and dialogs for DA classification. We achieve a substantial increase of 3 percentage points in the F1 score relative to current state-of-the-art models on two prominent DA classification datasets, MRDA and EMOTyDA.

🌉 Interdisciplinary Bridge — Artificial Intelligence and Computer Vision and Deep Learning and Machine Learning and Natural Language Processing and Speech & Audio

🧭 Keyword Pioneer — audio modeling

🐣 Hot Topic Early Bird — cross-attention mechanism

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Knowledge & Reasoning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Robotics, Security & Privacy, Speech & Audio

Authors

Md Messal Monem Miah , Adarsh Pyarelal , Ruihong Huang

Topics

Deep Learning > Architectures > Transformers Machine Learning > Learning Types > Multi-Task Learning Natural Language Processing > Applications > Dialogue Systems Speech & Audio > Analysis > Speech Analysis Computer Vision > Core AI > Multimodal Learning Deep Learning > Learning Types > Multi-Modal Learning Artificial Intelligence > Core AI > Multi-Modal Learning

Keywords

self-attention mechanism speech recognition multimodal learning automatic speech recognition multimodal fusion cross-attention mechanism dialog act classification utterance modeling audio modeling hierarchical fusion

Download PDF

Related papers

Exploring Linguistic Probes for Morphological Generalization 2023

NameGuess: Column Name Expansion for Tabular Data 2023

Vision-Enhanced Semantic Entity Recognition in Document Images via Visually-Asymmetric Consistency Learning 2023

Improving Conversational Recommendation Systems via Bias Analysis and Language-Model-Enhanced Data Augmentation 2023

On the Calibration of Large Language Models and Alignment 2023