Computer Vision › Processing ›

Video Understanding

1592 directly classified papers

Papers per year

Papers

Backtrace Mamba: Reviving Critical Temporal Contexts via Hierarchical Memory Compression for Online Action Detection AAAI 2026

Towards Explainable Video Camouflaged Object Detection: SAM2 with Eventstream-Inspired Data AAAI 2026

Tracking and Segmenting Anything in Any Modality AAAI 2026

CLASP: Cross-modal Salient Anchor-based Semantic Propagation for Weakly-supervised Dense Audio-Visual Event Localization AAAI 2026

GenVidBench: A 6-Million Benchmark for AI-Generated Video Detection AAAI 2026

Learning Spatio-temporal Feature Representations for Video-based Gaze Estimation WACV 2026

Learning Action Hierarchies via Hybrid Geometric Diffusion WACV 2026

VFace: A Training-Free Approach for Diffusion-Based Video Face Swapping WACV 2026

Boosting Unsupervised Video Instance Segmentation with Automatic Quality-Guided Self-Training WACV 2026

Test-Time Adaptation for Video Highlight Detection Using Meta-Auxiliary Learning and Cross-Modality Hallucinations WACV 2026

What Happens When: Learning Temporal Orders of Events in Videos WACV 2026

SPOC: Spatially-Progressing Object State Change Segmentation in Video WACV 2026

Isolating the Role of Temporal Information in Video Saliency: A Controlled Experimental Analysis WACV 2026

ST-Think: How Multimodal Large Language Models Reason About 4D Worlds from Ego-Centric Videos WACV 2026

BrightRate: Quality Assessment for User-Generated HDR Videos WACV 2026

Progressive Visual Refinement for Multi-modal Summarization EACL 2026

TR-EduVSum: A Turkish-Focused Dataset and Consensus Framework for Educational Video Summarization EACL 2026

Action-and-object Aware Alignment for Partially Relevant Video Retrieval AAAI 2026

4D Scaffold Gaussian Splatting with Dynamic-Aware Anchor Growing for Efficient and High-Fidelity Dynamic Scene Reconstruction AAAI 2026

Understanding Dynamic Scenes in Ego Centric 4D Point Clouds AAAI 2026

Explicit Temporal-Semantic Modeling for Dense Video Captioning via Context-Aware Cross-Modal Interaction AAAI 2026

Collaborative Feature Matching with Progressive Correspondence Learning AAAI 2026

MVGD-Net: A Novel Motion-aware Video Glass Surface Detection Method AAAI 2026

EmoVid: A Multimodal Emotion Video Dataset for Emotion-Centric Video Understanding and Generation AAAI 2026

TWiST: Temporal Weakly-Supervised Triplets Recognition in Surgical Videos (Student Abstract) AAAI 2026