Speech & Audio › Processing ›

Speech Enhancement

107 directly classified papers

Papers per year

Papers

Language-Codec: Bridging Discrete Codec Representations and Speech Language Models ACL 2025

SECodec: Structural Entropy-based Compressive Speech Representation Codec for Speech Language Models AAAI 2025

MERaLiON-AudioLLM: Advancing Speech and Language Understanding for Singapore ACL 2025

Proactive Hearing Assistants that Isolate Egocentric Conversations EMNLP 2025

Complex-Cycle-Consistent Diffusion Model for Monaural Speech Enhancement AAAI 2025

Seeing Your Speech Style: A Novel Zero-Shot Identity-Disentanglement Face-based Voice Conversion AAAI 2025

BSDB-Net: Band-Split Dual-Branch Network with Selective State Spaces Mechanism for Monaural Speech Enhancement AAAI 2025

LLaSE-G1: Incentivizing Generalization Capability for LLaMA-based Speech Enhancement ACL 2025

IPA CHILDES & G2P+: Feature-Rich Resources for Cross-Lingual Phonology and Phonemic Language Modeling ACL 2025

Benchmarking Open-ended Audio Dialogue Understanding for Large Audio-Language Models ACL 2025

SIFT-50M: A Large-Scale Multilingual Dataset for Speech Instruction Fine-Tuning ACL 2025

Analyzing and Mitigating Inconsistency in Discrete Speech Tokens for Neural Codec Language Models ACL 2025

UniCodec: Unified Audio Codec with Single Domain-Adaptive Codebook ACL 2025

Takin-VC: Expressive Zero-Shot Voice Conversion via Adaptive Hybrid Content Encoding and Enhanced Timbre Modeling ACL 2025

A Multi-view Fusion Approach for Enhancing Speech Signals via Short-time Fractional Fourier Transform IJCAI 2025

Detecting Music Performance Errors with Transformers AAAI 2025

Speech Watermarking with Discrete Intermediate Representations AAAI 2025

Recording for Eyes, Not Echoing to Ears: Contextualized Spoken-to-Written Conversion of ASR Transcripts AAAI 2025

Phonotomizer: A Compact, Unsupervised, Online Training Approach to Real-Time, Multilingual Phonetic Segmentation ACL 2025

Self-Supervised Disentangled Representation Learning for Robust Target Speech Extraction AAAI 2024

Shallow Diffusion for Fast Speech Enhancement (Student Abstract) AAAI 2024

Independency Adversarial Learning for Cross-Modal Sound Separation AAAI 2024

Self-Supervised Singing Voice Pre-Training towards Speech-to-Singing Conversion ACL 2024

Aligning Speech Segments Beyond Pure Semantics ACL 2024

Preset-Voice Matching for Privacy Regulated Speech-to-Speech Translation Systems ACL 2024