Speech & Audio › Synthesis ›

Speech Enhancement

793 directly classified papers

Papers per year

Papers

UrHiOdSynth: A Multilingual Synthetic Corpus for Speech-to-Speech Translation in Low-Resource Indic Languages EACL 2026

Animate and Sound an Image CVPR 2025

RT-VC: Real-Time Zero-Shot Voice Conversion with Speech Articulatory Coding ACL 2025

BUINUS at IWSLT: Evaluating the Impact of Data Augmentation and QLoRA-based Fine-Tuning for Maltese to English Speech Translation ACL 2025

Learning to See through Sound: From VggCaps to Multi2Cap for Richer Automated Audio Captioning EMNLP 2025

End-to-End Multilingual Automatic Dubbing via Duration-based Translation with Large Language Models EMNLP 2025

Improve Speech Translation Through Text Rewrite COLING 2025

FFSTC 2: Extending the Fongbe to French Speech Translation Corpus ACL 2025

Analyzing and Mitigating Inconsistency in Discrete Speech Tokens for Neural Codec Language Models ACL 2025

KIT’s Low-resource Speech Translation Systems for IWSLT2025: System Enhancement with Synthetic Data and Model Regularization ACL 2025

SYSTRAN @ IWSLT 2025 Low-resource track ACL 2025

BeaverTalk: Oregon State University’s IWSLT 2025 Simultaneous Speech Translation System ACL 2025

COAS2W: A Chinese Older-Adults Spoken-to-Written Transformation Corpus with Context Awareness EMNLP 2025

FillerSpeech: Towards Human-Like Text-to-Speech Synthesis with Filler Insertion and Filler Style Control EMNLP 2025

SPARC: An AI-Based Speech Processing and Real-Time Correction System IJCAI 2025

ASAudio: A Survey of Advanced Spatial Audio Research IJCNLP 2025

CA*: Addressing Evaluation Pitfalls in Computation-Aware Latency for Simultaneous Speech Translation NAACL 2025

From Conversational Speech to Readable Text: Post-Processing Noisy Transcripts in a Low-Resource Setting NAACL 2025

BSDB-Net: Band-Split Dual-Branch Network with Selective State Spaces Mechanism for Monaural Speech Enhancement AAAI 2025

LLaSE-G1: Incentivizing Generalization Capability for LLaMA-based Speech Enhancement ACL 2025

Streaming Sequence Transduction through Dynamic Compression ACL 2025

NYA’s Offline Speech Translation System for IWSLT 2025 ACL 2025

HENT-SRT: Hierarchical Efficient Neural Transducer with Self-Distillation for Joint Speech Recognition and Translation ACL 2025

CMU’s IWSLT 2025 Simultaneous Speech Translation System ACL 2025

GMU Systems for the IWSLT 2025 Low-Resource Speech Translation Shared Task ACL 2025