Sigma: Siamese Mamba Network for Multi-Modal Semantic Segmentation

Zifu Wan; Pingping Zhang; Yuhao Wang; Silong Yong; Simon Stepputtis; Katia Sycara; Yaqi Xie

2025 WACV WACV 2025

Sigma: Siamese Mamba Network for Multi-Modal Semantic Segmentation

Abstract

Multi-modal semantic segmentation significantly enhances AI agents' perception and scene understanding especially under adverse conditions like low-light or overexposed environments. Leveraging additional modalities (X-modality) like thermal and depth alongside traditional RGB provides complementary information enabling more robust and reliable segmentation. In this work we introduce Sigma a Siamese Mamba network for multi-modal semantic segmentation utilizing the Selective Structured State Space Model Mamba. Unlike conventional methods that rely on CNNs with their limited local receptive fields or Vision Transformers (ViTs) which offer global receptive fields at the cost of quadratic complexity our model achieves global receptive fields coverage with linear complexity. By employing a Siamese encoder and innovating a Mamba fusion mechanism we effectively select essential information from different modalities. A decoder is then developed to enhance the channel-wise modeling ability of the model. Our method Sigma is rigorously evaluated on both RGB-Thermal and RGB-Depth segmentation tasks demonstrating its superiority and marking the first successful application of State Space Models (SSMs) in multi-modal perception tasks. Code is available at https://github.com/zifuwan/Sigma.

🌉 Interdisciplinary Bridge — Computer Vision and Deep Learning

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Knowledge & Reasoning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Robotics, Security & Privacy, Speech & Audio

Authors

Zifu Wan , Pingping Zhang , Yuhao Wang , Silong Yong , Simon Stepputtis , Katia Sycara , Yaqi Xie

Topics

Deep Learning > Architectures > Transformers Deep Learning > Architectures > Neural Networks Computer Vision > Analysis > Semantic Segmentation Computer Vision > Processing > Semantic Segmentation Computer Vision > Core AI > Multimodal Learning

Keywords

semantic segmentation multimodal learning depth estimation multi-modal learning state space model siamese network

Download PDF

Related papers

Neural Graph Map: Dense Mapping with Efficient Loop Closure Integration 2025

ELMGS: Enhancing Memory and Computation Scalability through Compression for 3D Gaussian Splatting 2025

Feature Fusion Transferability Aware Transformer for Unsupervised Domain Adaptation 2025

Uncertainty-Aware Online Extrinsic Calibration: A Conformal Prediction Approach 2025

Disentangling Spatio-Temporal Knowledge for Weakly Supervised Object Detection and Segmentation in Surgical Video 2025