LiteASR: Efficient Automatic Speech Recognition with Low-Rank Approximation

Keisuke Kamahori; Jungo Kasai; Noriyuki Kojima; Baris Kasikci

2025 EMNLP EMNLP 2025

LiteASR: Efficient Automatic Speech Recognition with Low-Rank Approximation

Abstract

AbstractModern automatic speech recognition (ASR) models, such as OpenAI’s Whisper, rely on deep encoder-decoder architectures, and their encoders are a critical bottleneck for efficient deployment due to high computational intensity. We introduce LiteASR, a low-rank compression scheme for ASR encoders that significantly reduces inference costs while maintaining transcription accuracy. Our approach leverages the strong low-rank properties observed in intermediate activations: by applying principal component analysis (PCA) with a small calibration dataset, we approximate linear transformations with a chain of low-rank matrix multiplications, and further optimize self-attention to work in reduced dimensionality. Evaluation results show that our method can compress Whisper large-v3’s encoder size by over 50%, matching Whisper medium’s size with better transcription accuracy, thereby establishing a new Pareto frontier of accuracy and efficiency. The code of LiteASR is available at https://github.com/efeslab/LiteASR.

🌉 Interdisciplinary Bridge — Artificial Intelligence and Deep Learning and Machine Learning and Mathematics & Optimization and Speech & Audio

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Knowledge & Reasoning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Robotics, Security & Privacy, Speech & Audio

Authors

Keisuke Kamahori , Jungo Kasai , Noriyuki Kojima , Baris Kasikci

Topics

Speech & Audio > Recognition > Automatic Speech Recognition Mathematics & Optimization > Optimization > Continuous Optimization Machine Learning > Application Areas > Model Compression Artificial Intelligence > Core AI > Large Language Models Deep Learning > Optimization & Theory > Neural Network Optimization Deep Learning > Optimization & Theory > Model Compression

Keywords

model compression principal component analysis automatic speech recognition neural network optimization low-rank approximation encoder-decoder architecture whisper model

Download PDF

Related papers

Bit-Flip Error Resilience in LLMs: A Comprehensive Analysis and Defense Framework 2025

VoiceCraft-X: Unifying Multilingual, Voice-Cloning Speech Synthesis and Speech Editing 2025

Model-based Large Language Model Customization as Service 2025

ZoomEye: Enhancing Multimodal LLMs with Human-Like Zooming Capabilities through Tree-Based Image Exploration 2025

SlideCoder: Layout-aware RAG-enhanced Hierarchical Slide Generation from Design 2025