Computer Vision › Analysis ›

Video Understanding

1098 directly classified papers

Papers per year

Papers

RoadSocial: A Diverse VideoQA Dataset and Benchmark for Road Event Understanding from Social Video Narratives CVPR 2025

Reliable and Diverse Hierarchical Adapter for Zero-shot Video Classification IJCAI 2025

HVGuard: Utilizing Multimodal Large Language Models for Hateful Video Detection EMNLP 2025

ResidualViT for Efficient Temporally Dense Video Encoding ICCV 2025

Vulnerability-Aware Spatio-Temporal Learning for Generalizable Deepfake Video Detection ICCV 2025

RAVEN++: Pinpointing Fine-Grained Violations in Advertisement Videos with Active Reinforcement Reasoning EMNLP 2025

Static or Dynamic: Towards Query-Adaptive Token Selection for Video Question Answering EMNLP 2025

Open-Vocabulary Video Anomaly Detection CVPR 2024

Error Detection in Egocentric Procedural Task Videos CVPR 2024

Visual Objectification in Films: Towards a New AI Task for Video Interpretation CVPR 2024

Koala: Key Frame-Conditioned Long Video-LLM CVPR 2024

MoReVQA: Exploring Modular Reasoning Models for Video Question Answering CVPR 2024

Bridging the Gap: A Unified Video Comprehension Framework for Moment Retrieval and Highlight Detection CVPR 2024

FineSports: A Multi-person Hierarchical Sports Video Dataset for Fine-grained Action Understanding CVPR 2024

Learned Scanpaths Aid Blind Panoramic Video Quality Assessment CVPR 2024

Dual DETRs for Multi-Label Temporal Action Detection CVPR 2024

Modular Blind Video Quality Assessment CVPR 2024

VideoMAC: Video Masked Autoencoders Meet ConvNets CVPR 2024

Exploiting Style Latent Flows for Generalizing Deepfake Video Detection CVPR 2024

Context-Guided Spatio-Temporal Video Grounding CVPR 2024

Multi-scale Dynamic and Hierarchical Relationship Modeling for Facial Action Units Recognition CVPR 2024

A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames CVPR 2024

Do You Remember? Dense Video Captioning with Cross-Modal Memory Retrieval CVPR 2024

Dual Prototype Attention for Unsupervised Video Object Segmentation CVPR 2024

Temporally Consistent Unbalanced Optimal Transport for Unsupervised Action Segmentation CVPR 2024