← Models

Deep Learning › Models ›

Foundation Models

259 directly classified papers

Papers per year

Papers

FoundIR: Unleashing Million-scale Training Data to Advance Foundation Models for Image Restoration ICCV 2025

Visual Consensus Prompting for Co-Salient Object Detection CVPR 2025

OpenVision: A Fully-Open, Cost-Effective Family of Advanced Vision Encoders for Multimodal Learning ICCV 2025

CLIPErase: Efficient Unlearning of Visual-Textual Associations in CLIP ACL 2025

Scalable Vision Language Model Training via High Quality Data Curation ACL 2025

FlagEvalMM: A Flexible Framework for Comprehensive Multimodal Model Evaluation ACL 2025

GRNFormer: A Biologically-Guided Framework for Integrating Gene Regulatory Networks into RNA Foundation Models ACL 2025

Seeing What Tastes Good: Revisiting Multimodal Distributional Semantics in the Billion Parameter Era ACL 2025

SkySense V2: A Unified Foundation Model for Multi-modal Remote Sensing ICCV 2025

Pay Attention to Your Neighbours: Training-Free Open-Vocabulary Semantic Segmentation WACV 2025

FE-CLIP: Frequency Enhanced CLIP Model for Zero-Shot Anomaly Detection and Segmentation ICCV 2025

Transferring Foundation Models for Generalizable Robotic Manipulation WACV 2025

RoboTron-Mani: All-in-One Multimodal Large Model for Robotic Manipulation ICCV 2025

fLSA: Learning Semantic Structures in Document Collections Using Foundation Models EMNLP 2025

Towards a "Universal Translator" for Neural Dynamics at Single-Cell, Single-Spike Resolution NIPS 2024

Fantastic Animals and Where to Find Them: Segment Any Marine Animal with Dual SAM CVPR 2024

Enhancing Vision-Language Pre-training with Rich Supervisions CVPR 2024

MP-RNA: Unleashing Multi-species RNA Foundation Model via Calibrated Secondary Structure Prediction EMNLP 2024

PRISM: A New Lens for Improved Color Understanding EMNLP 2024

OmniGlue: Generalizable Feature Matching with Foundation Model Guidance CVPR 2024

Towards Global Optimal Visual In-Context Learning Prompt Selection NIPS 2024

Domain Prompt Learning with Quaternion Networks CVPR 2024

RobustSAM: Segment Anything Robustly on Degraded Images CVPR 2024

Making Visual Sense of Oracle Bones for You and Me CVPR 2024

MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI CVPR 2024