Hi-Fi Multi-Speaker English TTS Dataset

Evelina Bakhturina; Vitaly Lavrukhin; Boris Ginsburg; Yang Zhang

2021 INTERSPEECH INTERSPEECH 2021

Hi-Fi Multi-Speaker English TTS Dataset

Abstract

This paper introduces a new multi-speaker English dataset for training text-to-speech models. The dataset is based on LibriVox audiobooks and Project Gutenberg texts, both in the public domain. The new dataset contains about 292 hours of speech from 10 speakers with at least 17 hours per speaker sampled at 44.1 kHz. To select speech samples with high quality, we considered audio recordings with a signal bandwidth of at least 13 kHz and a signal-to-noise ratio (SNR) of at least 32 dB. The dataset is publicly released.

🧭 Keyword Pioneer — audio dataset

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Security & Privacy, Speech & Audio

Authors

Evelina Bakhturina , Vitaly Lavrukhin , Boris Ginsburg , Yang Zhang

Topics

Speech & Audio > Synthesis > Text-to-Speech

Keywords

speaker recognition multi-speaker synthesis audio dataset public domain audio

Download PDF

Related papers

Energy-Friendly Keyword Spotting System Using Add-Based Convolution 2021

Dialogue Situation Recognition for Everyday Conversation Using Multimodal Information 2021

Using Games to Augment Corpora for Language Recognition and Confusability 2021

A Psychology-Driven Computational Analysis of Political Interviews 2021

The 2020 Personalized Voice Trigger Challenge: Open Datasets, Evaluation Metrics, Baseline System and Results 2021