← Learning Types

Machine Learning › Learning Types ›

Multi-Modal Learning

1213 directly classified papers

Papers per year

Papers

Multimodal Argumentative Fallacy Classification in Political Debates ACL 2025

Prompt-Guided Augmentation and Multi-modal Fusion for Argumentative Fallacy Classification in Political Debates ACL 2025

Experiential Semantic Information and Brain Alignment: Are Multimodal Models Better than Language Models? ACL 2025

STARS: A Unified Framework for Singing Transcription, Alignment, and Refined Style Annotation ACL 2025

PAI at SemEval-2025 Task 11: A Large Language Model Ensemble Strategy for Text-Based Emotion Detection ACL 2025

Sensitive Content Classification in Social Media: A Holistic Resource and Evaluation ACL 2025

Social Hatred: Efficient Multimodal Detection of Hatemongers ACL 2025

Enhancing Speech Large Language Models with Prompt-Aware Mixture of Audio Encoders EMNLP 2025

DynamicNER: A Dynamic, Multilingual, and Fine-Grained Dataset for LLM-based Named Entity Recognition EMNLP 2025

LILaC: Late Interacting in Layered Component Graph for Open-domain Multimodal Multihop Retrieval EMNLP 2025

Text Takes Over: A Study of Modality Bias in Multimodal Intent Detection EMNLP 2025

TSAM: Temporal SAM Augmented with Multimodal Prompts for Referring Audio-Visual Segmentation CVPR 2025

VISTA: Enhancing Long-Duration and High-Resolution Video Understanding by Video Spatiotemporal Augmentation CVPR 2025

VinaBench: Benchmark for Faithful and Consistent Visual Narratives CVPR 2025

Language-Guided Audio-Visual Learning for Long-Term Sports Assessment CVPR 2025

MAD: Memory-Augmented Detection of 3D Objects CVPR 2025

GENIUS: A Generative Framework for Universal Multimodal Search CVPR 2025

Active Data Curation Effectively Distills Large-Scale Multimodal Models CVPR 2025

PCDreamer: Point Cloud Completion Through Multi-view Diffusion Priors CVPR 2025

A Survey on Multi-modal Intent Recognition: Recent Advances and New Frontiers EMNLP 2025

DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving CVPR 2025

Optimizing Vision-Language Model for Road Crossing Intention Estimation WACV 2025

RGB-D Video Mirror Detection WACV 2025

Cross-Modal Distillation for 2D/3D Multi-Object Discovery from 2D Motion CVPR 2025

NCL-UoR at SemEval-2025 Task 3: Detecting Multilingual Hallucination and Related Observable Overgeneration Text Spans with Modified RefChecker and Modified SeflCheckGPT SEMEVAL 2025