← Recognition

Speech & Audio › Recognition ›

Automatic Speech Recognition

1789 directly classified papers

Papers per year

Papers

Enhancing Audiovisual Speech Recognition Through Bifocal Preference Optimization AAAI 2025

Automatic Speech Recognition for African Low-Resource Languages: Challenges and Future Directions ACL 2025

MISP-Meeting: A Real-World Dataset with Multimodal Cues for Long-form Meeting Transcription and Summarization ACL 2025

Automatic Phone Alignment of Code-switched Urum–Russian Field Data ACL 2025

MERaLiON-AudioLLM: Advancing Speech and Language Understanding for Singapore ACL 2025

Data Quality Issues in Multilingual Speech Datasets: The Need for Sociolinguistic Awareness and Proactive Language Planning ACL 2025

Idiosyncratic Versus Normative Modeling of Atypical Speech Recognition: Dysarthric Case Studies EMNLP 2025

Do Slides Help? Multi-modal Context for Automatic Transcription of Conference Talks EMNLP 2025

Evaluating Automatic Speech Recognition Systems for Korean Meteorological Experts EMNLP 2025

Investigating Adapters for Parameter-efficient Low-resource Automatic Speech Recognition NAACL 2025

BeaverTalk: Oregon State University’s IWSLT 2025 Simultaneous Speech Translation System ACL 2025

byteSizedLLM@DravidianLangTech 2025: Multimodal Hate Speech Detection in Malayalam Using Attention-Driven BiLSTM, Malayalam-Topic-BERT, and Fine-Tuned Wav2Vec 2.0 NAACL 2025

The Impact of Dialect Variation on Robust Automatic Speech Recognition for Catalan NAACL 2025

UniCoM: A Universal Code-Switching Speech Generator EMNLP 2025

MMS-LLaMA: Efficient LLM-based Audio-Visual Speech Recognition with Minimal Multimodal Speech Tokens ACL 2025

NAIST Offline Speech Translation System for IWSLT 2025 ACL 2025

Enhance Contextual Learning in ASR for Endangered Low-resource Languages NAACL 2025

Simultaneous Translation with Offline Speech and LLM Models in CUNI Submission to IWSLT 2025 ACL 2025

Effectively combining Phi-4 and NLLB for Spoken Language Translation: SPRING Lab IITM’s submission to Low Resource Multilingual Indic Track ACL 2025

Lost in Transcription, Found in Distribution Shift: Demystifying Hallucination in Speech Foundation Models ACL 2025

Towards Language-Agnostic STIPA: Universal Phonetic Transcription to Support Language Documentation at Scale EMNLP 2025

On the Tolerance of Repetition Before Performance Degradation in Kiswahili Automatic Speech Recognition ACL 2025

InTriage: Intelligent Telephone Triage in Pre-Hospital Emergency Care EMNLP 2025

SpeechEE@XLLM25: End-to-End Structured Event Extraction from Speech ACL 2025

Advocating Character Error Rate for Multilingual ASR Evaluation NAACL 2025