Accelerate Parallelizable Reasoning via Parallel Decoding within One Sequence

Yijiong Yu; Wei Wang; Ran Chen; Ji Pei

2025 EMNLP EMNLP 2025

Accelerate Parallelizable Reasoning via Parallel Decoding within One Sequence

Abstract

AbstractRecent advances in reasoning models have demonstrated significant improvements in accuracy by employing detailed and comprehensive reasoning processes. However, generating these lengthy reasoning sequences is computationally expensive and time-consuming. To address this inefficiency, we leverage the inherent parallelizability of certain tasks to accelerate the reasoning process. Specifically, when multiple parallel reasoning steps exist, we decode multiple tokens per forward pass via a tree-like attention mask within a single sequence, avoiding additional memory usage. Experimental results show that our method achieves up to nearly 100% speedup in decoding while basically maintaining the answer quality. Our code is available in https://github.com/yuyijiong/parallel-decoding-in-one-sequence

🌉 Interdisciplinary Bridge — Artificial Intelligence and Computer Vision and Deep Learning and Knowledge & Reasoning and Machine Learning and Natural Language Processing

🧭 Keyword Pioneer — reasoning acceleration

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Knowledge & Reasoning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Robotics, Speech & Audio

Authors

Yijiong Yu , Wei Wang , Ran Chen , Ji Pei

Topics

Artificial Intelligence > Core AI > Planning Machine Learning > Optimization & Theory > Neural Network Optimization Machine Learning > Application Areas > Efficient Computing Natural Language Processing > Resources & Methods > Large Language Models Knowledge & Reasoning > Reasoning Artificial Intelligence > Core AI > Large Language Models Artificial Intelligence > Core AI > Reasoning Deep Learning > Models > Large Language Models Artificial Intelligence > Core AI > Efficient Computing Deep Learning > Optimization & Theory > Optimization Computer Vision > Core AI > Efficient Computing Machine Learning > Learning Types > Large Language Models Machine Learning > Optimization & Theory > Efficient Computing Deep Learning > Optimization & Theory > Efficient Computing Deep Learning > Application Areas > Efficient Computing

Keywords

sequence generation autoregressive generation computational efficiency inference optimization reasoning model parallel decoding reasoning acceleration tree-like attention decoding speedup

Download PDF

Related papers

Bit-Flip Error Resilience in LLMs: A Comprehensive Analysis and Defense Framework 2025

VoiceCraft-X: Unifying Multilingual, Voice-Cloning Speech Synthesis and Speech Editing 2025

Model-based Large Language Model Customization as Service 2025

ZoomEye: Enhancing Multimodal LLMs with Human-Like Zooming Capabilities through Tree-Based Image Exploration 2025

SlideCoder: Layout-aware RAG-enhanced Hierarchical Slide Generation from Design 2025