Speech & Audio › Processing ›

Speech Enhancement

107 directly classified papers

Papers per year

Papers

XLS-R fine-tuning on noisy word boundaries for unsupervised speech segmentation into words EMNLP 2023

DISCO: A Large Scale Human Annotated Corpus for Disfluency Correction in Indo-European Languages EMNLP 2023

Self-Supervised Visual Acoustic Matching NIPS 2023

High-Fidelity Audio Compression with Improved RVQGAN NIPS 2023

UNSSOR: Unsupervised Neural Speech Separation by Leveraging Over-determined Training Mixtures NIPS 2023

DOSE: Diffusion Dropout with Adaptive Prior for Speech Enhancement NIPS 2023

Sounding Bodies: Modeling 3D Spatial Sound of Humans Using Body Pose and Audio NIPS 2023

VoiceBlock: Privacy through Real-Time Adversarial Attacks with Audio-to-Audio Models NIPS 2022

SubER - A Metric for Automatic Evaluation of Subtitle Quality ACL 2022

Using BERT Embeddings to Model Word Importance in Conversational Transcripts for Deaf and Hard of Hearing Users ACL 2022

SFSRNet: Super-resolution for Single-Channel Audio Source Separation AAAI 2022

Hybrid Neural Networks for On-Device Directional Hearing AAAI 2022

Mix and Localize: Localizing Sound Sources in Mixtures CVPR 2022

Reference-Based Speech Enhancement via Feature Alignment and Fusion Network AAAI 2022

Tiny-Sepformer: A Tiny Time-Domain Transformer Network For Speech Separation INTERSPEECH 2022

Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement by Re-Synthesis CVPR 2022

Don’t Discard Fixed-Window Audio Segmentation in Speech-to-Text Translation EMNLP 2022

A Repetitive Spectrum Learning Framework for Monaural Speech Enhancement in Extremely Low SNR Environments (Student Abstract) AAAI 2022

Learning Audio-Visual Dynamics Using Scene Graphs for Audio Source Separation NIPS 2022

Minimum-Norm Differential Beamforming for Linear Array with Directional Microphones INTERSPEECH 2021

WSRGlow: A Glow-Based Waveform Generative Model for Audio Super-Resolution INTERSPEECH 2021

Universal Speaker Extraction in the Presence and Absence of Target Speakers for Speech of One and Two Talkers INTERSPEECH 2021

Auxiliary Loss Function for Target Speech Extraction and Recognition with Weak Supervision Based on Speaker Characteristics INTERSPEECH 2021

Incorporating External POS Tagger for Punctuation Restoration INTERSPEECH 2021

Coded Speech Enhancement Using Neural Network-Based Vector-Quantized Residual Features INTERSPEECH 2021