i-Vector Transformation Using a Novel Discriminative Denoising Autoencoder for Noise-Robust Speaker Recognition

Shivangi Mahto; Hitoshi Yamamoto; Takafumi Koshinaka

2017 INTERSPEECH INTERSPEECH 2017

i-Vector Transformation Using a Novel Discriminative Denoising Autoencoder for Noise-Robust Speaker Recognition

Abstract

This paper proposes i-vector transformations using neural networks for achieving noise-robust speaker recognition. A novel discriminative denoising autoencoder (DDAE) is employed on i-vectors to remove additive noise effects. The DDAE is trained to denoise and classify noisy i-vectors simultaneously, making it possible to add discriminability to the denoised i-vectors. Speaker recognition experiments on the NIST SRE 2012 task shows 32% better error performance as compared to a baseline system. Also, our proposed method outperforms such conventional methods as multi-condition training and a basic denoising autoencoder.

🌉 Interdisciplinary Bridge — Deep Learning and Machine Learning

📈 Trend Setter — Autoencoders

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Deep Learning, Healthcare & Medicine, Interdisciplinary, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Speech & Audio

🐣 Hot Topic Early Bird — denoising autoencoder

Authors

Shivangi Mahto , Hitoshi Yamamoto , Takafumi Koshinaka

Topics

Machine Learning > Application Areas > Domain Adaptation Deep Learning > Architectures > Autoencoders Speech & Audio > Recognition > Speaker Recognition Machine Learning > Learning Types > Deep Learning

Keywords

speaker recognition discriminative training noise robustness denoising autoencoder neural network

Download PDF

Related papers

Description of the Munich-Passau Snore Sound Corpus (MPSSC) 2017

A Study on Replay Attack and Anti-Spoofing for Automatic Speaker Verification 2017

Binaural Reverberant Speech Separation Based on Deep Neural Networks 2017

Building Audio-Visual Phonetically Annotated Arabic Corpus for Expressive Text to Speech 2017

A Comparison of Danish Listeners’ Processing Cost in Judging the Truth Value of Norwegian, Swedish, and English Sentences 2017