Star with Bilinear Mapping

Zelin Peng; Yu Huang; Zhengqin Xu; Feilong Tang; Ming Hu; Xiaokang Yang; Wei Shen

2025 CVPR CVPR 2025

Star with Bilinear Mapping

Abstract

Contextual modeling is crucial for robust visual representation learning, especially in computer vision. Although Transformers have become a leading architecture for vision tasks due to their attention mechanism, the quadratic complexity of full attention operations presents substantial computational challenges. To address this, we introduce Star with Bilinear Mapping (SBM), a Transformer-like architecture that achieves global contextual modeling with linear complexity. SBM employs a bilinear mapping module (BM) with low-rank decomposition strategy and star operations (element-wise multiplication) to efficiently capture global contextual information. Our model demonstrates competitive performance on image classification and semantic segmentation tasks, delivering significant computational efficiency gains compared to traditional attention-based models.

🌉 Interdisciplinary Bridge — Computer Vision and Deep Learning

🧭 Keyword Pioneer — bilinear mapping

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Knowledge & Reasoning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Robotics, Security & Privacy, Speech & Audio

Authors

Zelin Peng , Yu Huang , Zhengqin Xu , Feilong Tang , Ming Hu , Xiaokang Yang , Wei Shen

Topics

Deep Learning > Architectures > Transformers Deep Learning > Techniques > Model Architecture Computer Vision > Analysis > Semantic Segmentation Computer Vision > Processing > Image Segmentation Deep Learning > Optimization & Theory > Neural Network Optimization Computer Vision > Core AI > Computer Vision Deep Learning > Optimization & Theory > Efficient Computing

Keywords

transformer architecture image classification semantic segmentation computer vision attention mechanism efficient computing visual representation learning contextual modeling linear complexity bilinear mapping star operation linear complexity attention global contextual modeling

Download PDF

Related papers

AnyCam: Learning to Recover Camera Poses and Intrinsics from Casual Videos 2025

SeriesBench: A Benchmark for Narrative-Driven Drama Series Understanding 2025

FADE: Frequency-Aware Diffusion Model Factorization for Video Editing 2025

Fast and Accurate Gigapixel Pathological Image Classification with Hierarchical Distillation Multi-Instance Learning 2025

Reversible Decoupling Network for Single Image Reflection Removal 2025