Artificial Intelligence › Core AI ›

Vision-Language Models

11 directly classified papers

Papers per year

Papers

Functionality Understanding and Segmentation in 3D Scenes CVPR 2025

MTP: A Dataset for Multi-Modal Turning Points in Casual Conversations ACL 2024

Learning to Learn Better Visual Prompts AAAI 2024

Prompt Learning via Meta-Regularization CVPR 2024

Contrasting Intra-Modal and Ranking Cross-Modal Hard Negatives to Enhance Visio-Linguistic Compositional Understanding CVPR 2024

AutoHallusion: Automatic Generation of Hallucination Benchmarks for Vision-Language Models EMNLP 2024

SC-Tune: Unleashing Self-Consistent Referential Comprehension in Large Vision Language Models CVPR 2024

CAT-Seg: Cost Aggregation for Open-Vocabulary Semantic Segmentation CVPR 2024

Digging out Discrimination Information from Generated Samples for Robust Visual Question Answering ACL 2023

Topological Planning With Transformers for Vision-and-Language Navigation CVPR 2021

Visual Question Answering with Question Representation Update (QRU) NIPS 2016