Data Augmentation Using GANs for Speech Emotion Recognition

Aggelina Chatziagapi; Georgios Paraskevopoulos; Dimitris Sgouropoulos; Georgios Pantazopoulos; Malvina Nikandrou; Theodoros Giannakopoulos; Athanasios Katsamanis; Alexandros Potamianos; Shrikanth Narayanan

2019 INTERSPEECH INTERSPEECH 2019

Data Augmentation Using GANs for Speech Emotion Recognition

Abstract

In this work, we address the problem of data imbalance for the task of Speech Emotion Recognition (SER). We investigate conditioned data augmentation using Generative Adversarial Networks (GANs), in order to generate samples for underrepresented emotions. We adapt and improve a conditional GAN architecture to generate synthetic spectrograms for the minority class. For comparison purposes, we implement a series of signal-based data augmentation methods. The proposed GAN-based approach is evaluated on two datasets, namely IEMOCAP and FEEL-25k, a large multi-domain dataset. Results demonstrate a 10% relative performance improvement in IEMOCAP and 5% in FEEL-25k, when augmenting the minority classes.

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Knowledge & Reasoning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Robotics, Security & Privacy, Speech & Audio

Authors

Aggelina Chatziagapi , Georgios Paraskevopoulos , Dimitris Sgouropoulos , Georgios Pantazopoulos , Malvina Nikandrou , Theodoros Giannakopoulos , Athanasios Katsamanis , Alexandros Potamianos , Shrikanth Narayanan

Topics

Machine Learning > Application Areas > Data Augmentation

Keywords

data augmentation generative adversarial network spectrogram generation speech emotion recognition conditional gan

Download PDF

Related papers

Using Real-Time Visual Biofeedback for Second Language Instruction 2019

VAE-Based Regularization for Deep Speaker Embedding 2019

End-to-End SpeakerBeam for Single Channel Target Speech Recognition 2019

Attention-Enhanced Connectionist Temporal Classification for Discrete Speech Emotion Recognition 2019

Attentive to Individual: A Multimodal Emotion Recognition Network with Personalized Attention Profile 2019