Computer Vision › Analysis ›

Video Understanding

1098 directly classified papers

Papers per year

Papers

KVQ: Boosting Video Quality Assessment via Saliency-guided Local Perception CVPR 2025

KDA: Knowledge Diffusion Alignment with Enhanced Context for Video Temporal Grounding ICCV 2025

ProLongVid: A Simple but Strong Baseline for Long-context Video Instruction Tuning EMNLP 2025

Boosting Semi-Supervised Video Action Detection with Temporal Context WACV 2025

Investigating Dictionary Expansion for Video-based Sign Language Dictionaries EMNLP 2025

PatchVSR: Breaking Video Diffusion Resolution Limits with Patch-wise Video Super-Resolution CVPR 2025

SyncVP: Joint Diffusion for Synchronous Multi-Modal Video Prediction CVPR 2025

Static or Dynamic: Towards Query-Adaptive Token Selection for Video Question Answering EMNLP 2025

Dispider: Enabling Video LLMs with Active Real-Time Interaction via Disentangled Perception, Decision, and Reaction CVPR 2025

Prototypes are Balanced Units for Efficient and Effective Partially Relevant Video Retrieval ICCV 2025

Beyond Image Classification: A Video Benchmark and Dual-Branch Hybrid Discrimination Framework for Compositional Zero-Shot Learning CVPR 2025

Beyond Boxes: Mask-Guided Spatio-Temporal Feature Aggregation for Video Object Detection WACV 2025

Language-Guided Audio-Visual Learning for Long-Term Sports Assessment CVPR 2025

Transferable-Guided Attention is All You Need for Video Domain Adaptation WACV 2025

Weakly Supervised Temporal Action Localization via Dual-Prior Collaborative Learning Guided by Multimodal Large Language Models CVPR 2025

Generic Event Boundary Detection via Denoising Diffusion ICCV 2025

VLog: Video-Language Models by Generative Retrieval of Narration Vocabulary CVPR 2025

Video Language Model Pretraining with Spatio-temporal Masking CVPR 2025

Deep Temporal Reasoning in Video Language Models: A Cross-Linguistic Evaluation of Action Duration and Completion through Perfect Times ACL 2025

EgoNormia: Benchmarking Physical-Social Norm Understanding ACL 2025

RELOCATE: A Simple Training-Free Baseline for Visual Query Localization Using Region-Based Representations CVPR 2025

Joint Self-Supervised Video Alignment and Action Segmentation ICCV 2025

Face Forgery Video Detection via Temporal Forgery Cue Unraveling CVPR 2025

Transparent and Coherent Procedural Mistake Detection EMNLP 2025

HyperGLM: HyperGraph for Video Scene Graph Generation and Anticipation CVPR 2025