Computer Vision › Analysis ›

Video Understanding

1098 directly classified papers

Papers per year

Papers

Procedure Learning via Regularized Gromov-Wasserstein Optimal Transport WACV 2026

Fused Similarity Measure Based Alignment with Dual-Scale Adaptive Selection for Weakly Supervised Video Anomaly Detection WACV 2026

GateFusion: Hierarchical Gated Cross-Modal Fusion for Active Speaker Detection WACV 2026

Automated Suturing Skill Assessment in Robot-assisted Surgery from Endoscopic Videos using Clinically-guided Evaluation Criteria WACV 2026

ProSkill: Segment-Level Skill Assessment in Procedural Videos WACV 2026

Human Pose Aggregation for Multi-View Temporal Video Alignment WACV 2026

DiffRegCD: Integrated Registration and Change Detection with Diffusion Features WACV 2026

Flexible Frame Selection for Efficient Video Reasoning CVPR 2025

Language-Guided Audio-Visual Learning for Long-Term Sports Assessment CVPR 2025

SyncVP: Joint Diffusion for Synchronous Multi-Modal Video Prediction CVPR 2025

ProLongVid: A Simple but Strong Baseline for Long-context Video Instruction Tuning EMNLP 2025

EgoNormia: Benchmarking Physical-Social Norm Understanding ACL 2025

KDA: Knowledge Diffusion Alignment with Enhanced Context for Video Temporal Grounding ICCV 2025

Investigating Dictionary Expansion for Video-based Sign Language Dictionaries EMNLP 2025

OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video Understanding? CVPR 2025

Static or Dynamic: Towards Query-Adaptive Token Selection for Video Question Answering EMNLP 2025

Beyond Image Classification: A Video Benchmark and Dual-Branch Hybrid Discrimination Framework for Compositional Zero-Shot Learning CVPR 2025

Beyond Boxes: Mask-Guided Spatio-Temporal Feature Aggregation for Video Object Detection WACV 2025

Transferable-Guided Attention is All You Need for Video Domain Adaptation WACV 2025

Generic Event Boundary Detection via Denoising Diffusion ICCV 2025

HarmonySet: A Comprehensive Dataset for Understanding Video-Music Semantic Alignment and Temporal Synchronization CVPR 2025

HyperGLM: HyperGraph for Video Scene Graph Generation and Anticipation CVPR 2025

Joint Self-Supervised Video Alignment and Action Segmentation ICCV 2025

Deep Temporal Reasoning in Video Language Models: A Cross-Linguistic Evaluation of Action Duration and Completion through Perfect Times ACL 2025

Prototypes are Balanced Units for Efficient and Effective Partially Relevant Video Retrieval ICCV 2025