Artificial Intelligence › Core AI ›

Multi-Modal Learning

1457 directly classified papers

Papers per year

Papers

WiFi CSI Based Temporal Activity Detection via Dual Pyramid Network AAAI 2025

APIRL: Deep Reinforcement Learning for REST API Fuzzing AAAI 2025

See Through Their Minds: Learning Transferable Brain Decoding Models from Cross-Subject fMRI AAAI 2025

EyEar: Learning Audio Synchronized Human Gaze Trajectory Based on Physics-Informed Dynamics AAAI 2025

Flow4Agent: Long-form Video Understanding via Motion Prior from Optical Flow ICCV 2025

MSAmba: Exploring Multimodal Sentiment Analysis with State Space Models AAAI 2025

COMMIT: Certifying Robustness of Multi-Sensor Fusion Systems Against Semantic Attacks AAAI 2025

Multi-to-Single: Reducing Multimodal Dependency in Emotion Recognition Through Contrastive Learning AAAI 2025

BIG-FUSION: Brain-Inspired Global-Local Context Fusion Framework for Multimodal Emotion Recognition in Conversations AAAI 2025

Pose as a Modality: A Psychology-Inspired Network for Personality Recognition with a New Multimodal Dataset AAAI 2025

Visual Perturbation for Text-Based Person Search AAAI 2025

Revisiting Multimodal Fusion for 3D Anomaly Detection from an Architectural Perspective AAAI 2025

End-to-End Autonomous Driving Through V2X Cooperation AAAI 2025

CLIP-MSM: A Multi-Semantic Mapping Brain Representation for Human High-Level Visual Cortex AAAI 2025

Partial Point Cloud Registration with Multi-view 2D Image Learning AAAI 2025

Cross-Modal Few-Shot Learning with Second-Order Neural Ordinary Differential Equations AAAI 2025

UrBench: A Comprehensive Benchmark for Evaluating Large Multimodal Models in Multi-View Urban Scenarios AAAI 2025

Multimodal Class-aware Semantic Enhancement Network for Audio-Visual Video Parsing AAAI 2025

Decomposing and Fusing Intra- and Inter-Sensor Spatio-Temporal Signal for Multi-Sensor Wearable Human Activity Recognition AAAI 2025

Enhancing Multi-Robot Semantic Navigation Through Multimodal Chain-of-Thought Score Collaboration AAAI 2025

M^3EL: A Multi-task Multi-topic Dataset for Multi-modal Entity Linking AAAI 2025

Cross-Domain Trajectory Association Based on Hierarchical Spatiotemporal Enhanced Attention Hypergraph AAAI 2025

Debiased Multimodal Understanding for Human Language Sequences AAAI 2025

JEN-1 Composer: A Unified Framework for High-Fidelity Multi-Track Music Generation AAAI 2025

Jailbreak Large Vision-Language Models Through Multi-Modal Linkage ACL 2025