← Models

Deep Learning › Models ›

Vision-Language Models

685 directly classified papers

Papers per year

Papers

Federated Learning from Vision-Language Foundation Models: Theoretical Analysis and Method NIPS 2024

Micro-Bench: A Microscopy Benchmark for Vision-Language Understanding NIPS 2024

Dual Prototype Evolving for Test-Time Generalization of Vision-Language Models NIPS 2024

Dense Connector for MLLMs NIPS 2024

Rethinking Misalignment in Vision-Language Model Adaptation from a Causal Perspective NIPS 2024

ChatTracker: Enhancing Visual Tracking Performance via Chatting with Multimodal Large Language Model NIPS 2024

LG-CAV: Train Any Concept Activation Vector with Language Guidance NIPS 2024

Interpreting and Analysing CLIP's Zero-Shot Image Classification via Mutual Knowledge NIPS 2024

RoboMamba: Efficient Vision-Language-Action Model for Robotic Reasoning and Manipulation NIPS 2024

Interfacing Foundation Models' Embeddings NIPS 2024

OW-VISCapTor: Abstractors for Open-World Video Instance Segmentation and Captioning NIPS 2024

Evaluating Numerical Reasoning in Text-to-Image Models NIPS 2024

InternLM-XComposer2-4KHD: A Pioneering Large Vision-Language Model Handling Resolutions from 336 Pixels to 4K HD NIPS 2024

A General Protocol to Probe Large Vision Models for 3D Physical Understanding NIPS 2024

MARVEL: Multidimensional Abstraction and Reasoning through Visual Evaluation and Learning NIPS 2024

WATT: Weight Average Test Time Adaptation of CLIP NIPS 2024

WildVision: Evaluating Vision-Language Models in the Wild with Human Preferences NIPS 2024

Déjà Vu Memorization in Vision–Language Models NIPS 2024

Exploiting Descriptive Completeness Prior for Cross Modal Hashing with Incomplete Labels NIPS 2024

Calibrated Self-Rewarding Vision Language Models NIPS 2024

Why are Visually-Grounded Language Models Bad at Image Classification? NIPS 2024

Unveiling Encoder-Free Vision-Language Models NIPS 2024

G3: An Effective and Adaptive Framework for Worldwide Geolocalization Using Large Multi-Modality Models NIPS 2024

Magnet: We Never Know How Text-to-Image Diffusion Models Work, Until We Learn How Vision-Language Models Function NIPS 2024

Vitron: A Unified Pixel-level Vision LLM for Understanding, Generating, Segmenting, Editing NIPS 2024