VLASCD: A Visual Language Action Model for Simultaneous Chatting and Decision Making

Zuojin Tang; Bin Hu; Chenyang Zhao; De Ma; Gang Pan; Bin Liu

2025 EMNLP EMNLP 2025

VLASCD: A Visual Language Action Model for Simultaneous Chatting and Decision Making

Abstract

AbstractRecent large pretrained models such as LLMs (e.g., GPT series) and VLAs (e.g., OpenVLA) have achieved notable progress on multimodal tasks, yet they are built upon a multi-input single-output (MISO) paradigm. We show that this paradigm fundamentally limits performance in multi-input multi-output (MIMO) scenarios, where parallel task execution is required. In MISO architectures, tasks compete for a shared output channel, creating mutual exclusion effects that cause unbalanced optimization and degraded performance. To address this gap, we introduce MIMO-VLA (VLASCD), a unified training framework that enables concurrent multi-task outputs, exemplified by simultaneous dialogue generation and decision-making. Inspired by human cognition, MIMO-VLA eliminates interference between tasks and supports efficient parallel processing. Experiments on the CARLA autonomous driving platform demonstrate that MIMO-VLA substantially outperforms state-of-the-art MISO-based LLMs, reinforcement learning models, and VLAs in MIMO settings, establishing a new direction for multimodal and multitask learning.

🌉 Interdisciplinary Bridge — Artificial Intelligence and Computer Vision and Reinforcement Learning

🧭 Keyword Pioneer — visual language action model

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Knowledge & Reasoning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Robotics, Security & Privacy, Speech & Audio

Authors

Zuojin Tang , Bin Hu , Chenyang Zhao , De Ma , Gang Pan , Bin Liu

Topics

Artificial Intelligence > Core AI > Multimodal Learning Computer Vision > Domain-Specific > Autonomous Driving Reinforcement Learning > Applications > Robotics Artificial Intelligence > Core AI > Robotics

Keywords

multi-task learning decision making autonomous driving multitask learning multi-input multi-output visual language action model simultaneous decision making simultaneous dialogue

Download PDF

Related papers

Bit-Flip Error Resilience in LLMs: A Comprehensive Analysis and Defense Framework 2025

VoiceCraft-X: Unifying Multilingual, Voice-Cloning Speech Synthesis and Speech Editing 2025

Model-based Large Language Model Customization as Service 2025

ZoomEye: Enhancing Multimodal LLMs with Human-Like Zooming Capabilities through Tree-Based Image Exploration 2025

SlideCoder: Layout-aware RAG-enhanced Hierarchical Slide Generation from Design 2025