Computer Vision › Core AI ›

Multimodal Learning

1257 directly classified papers

Papers per year

Papers

Can LLMs Deceive CLIP? Benchmarking Adversarial Compositionality of Pre-trained Multimodal Representation via Text Updates ACL 2025

FOCUS: Evaluating Pre-trained Vision-Language Models on Underspecification Reasoning ACL 2025

Weaving Context Across Images: Improving Vision-Language Models through Focus-Centric Visual Chains ACL 2025

Performance Gap in Entity Knowledge Extraction Across Modalities in Vision Language Models ACL 2025

VISA: Retrieval Augmented Generation with Visual Source Attribution ACL 2025

Symmetrical Visual Contrastive Optimization: Aligning Vision-Language Models with Minimal Contrastive Images ACL 2025

IMOL: Incomplete-Modality-Tolerant Learning for Multi-Domain Fake News Video Detection ACL 2025

A Character-Centric Creative Story Generation via Imagination ACL 2025

MathCoder-VL: Bridging Vision and Code for Enhanced Multimodal Mathematical Reasoning ACL 2025

MIRe: Enhancing Multimodal Queries Representation via Fusion-Free Modality Interaction for Multimodal Retrieval ACL 2025

MTVQA: Benchmarking Multilingual Text-Centric Visual Question Answering ACL 2025

R-VLM: Region-Aware Vision Language Model for Precise GUI Grounding ACL 2025

A Couch Potato is not a Potato on a Couch: Prompting Strategies, Image Generation, and Compositionality Prediction for Noun Compounds ACL 2025

VAQUUM: Are Vague Quantifiers Grounded in Visual Data? ACL 2025

MDIT-Bench: Evaluating the Dual-Implicit Toxicity in Large Multimodal Models ACL 2025

Express What You See: Can Multimodal LLMs Decode Visual Ciphers with Intuitive Semiosis Comprehension? ACL 2025

MMInA: Benchmarking Multihop Multimodal Internet Agents ACL 2025

VADE: Visual Attention Guided Hallucination Detection and Elimination ACL 2025

MVL-SIB: A Massively Multilingual Vision-Language Benchmark for Cross-Modal Topical Matching ACL 2025

See the World, Discover Knowledge: A Chinese Factuality Evaluation for Large Vision Language Models ACL 2025

MAGIC-VQA: Multimodal And Grounded Inference with Commonsense Knowledge for Visual Question Answering ACL 2025

Sign2Vis: Automated Data Visualization from Sign Language ACL 2025

Can Multimodal Foundation Models Understand Schematic Diagrams? An Empirical Study on Information-Seeking QA over Scientific Papers ACL 2025

MMS-LLaMA: Efficient LLM-based Audio-Visual Speech Recognition with Minimal Multimodal Speech Tokens ACL 2025

Dual-Path Dynamic Fusion with Learnable Query for Multimodal Sentiment Analysis EMNLP 2025