← Learning Types

Machine Learning › Learning Types ›

Multi-Modal Learning

1213 directly classified papers

Papers per year

Papers

GraphTranslate: Predicting Clinical Trial Translation using Graph Neural Networks on Biomedical Literature ACL 2025

COVTrack: Continuous Open-Vocabulary Tracking via Adaptive Multi-Cue Fusion ICCV 2025

IRT-Router: Effective and Interpretable Multi-LLM Routing via Item Response Theory ACL 2025

Aligning Text/Speech Representations from Multimodal Models with MEG Brain Activity During Listening EMNLP 2025

RCI: A Score for Evaluating Global and Local Reasoning in Multimodal Benchmarks EMNLP 2025

Text Takes Over: A Study of Modality Bias in Multimodal Intent Detection EMNLP 2025

TSAM: Temporal SAM Augmented with Multimodal Prompts for Referring Audio-Visual Segmentation CVPR 2025

Multimodal Argumentative Fallacy Classification in Political Debates ACL 2025

Who is in the Spotlight: The Hidden Bias Undermining Multimodal Retrieval-Augmented Generation EMNLP 2025

M3Retrieve: Benchmarking Multimodal Retrieval for Medicine EMNLP 2025

Vision-Language Models Struggle to Align Entities across Modalities ACL 2025

MIRe: Enhancing Multimodal Queries Representation via Fusion-Free Modality Interaction for Multimodal Retrieval ACL 2025

CTPD: Cross-Modal Temporal Pattern Discovery for Enhanced Multimodal Electronic Health Records Analysis ACL 2025

Advancing Fine-Grained Visual Understanding with Multi-Scale Alignment in Multi-Modal Models EMNLP 2025

DynamicNER: A Dynamic, Multilingual, and Fine-Grained Dataset for LLM-based Named Entity Recognition EMNLP 2025

CLaMP 3: Universal Music Information Retrieval Across Unaligned Modalities and Unseen Languages ACL 2025

Towards Reliable Large Audio Language Model ACL 2025

Overview of MM-ArgFallacy2025 on Multimodal Argumentative Fallacy Detection and Classification in Political Debates ACL 2025

Predicting Depression in Screening Interviews from Interactive Multi-Theme Collaboration ACL 2025

M2-TabFact: Multi-Document Multi-Modal Fact Verification with Visual and Textual Representations of Tabular Data ACL 2025

Argumentative Fallacy Detection in Political Debates ACL 2025

Program Synthesis Benchmark for Visual Programming in XLogoOnline Environment ACL 2025

Prompt-Guided Augmentation and Multi-modal Fusion for Argumentative Fallacy Classification in Political Debates ACL 2025

STARS: A Unified Framework for Singing Transcription, Alignment, and Refined Style Annotation ACL 2025

HintsOfTruth: A Multimodal Checkworthiness Detection Dataset with Real and Synthetic Claims ACL 2025