Computer Vision › Analysis ›

Scene Understanding

1887 directly classified papers

Papers per year

Papers

Transparent Vision: A Theory of Hierarchical Invariant Representations ICCV 2025

Do Visual Imaginations Improve Vision-and-Language Navigation Agents? CVPR 2025

Spatial457: A Diagnostic Benchmark for 6D Spatial Reasoning of Large Mutimodal Models CVPR 2025

Robust and Efficient 3D Gaussian Splatting for Urban Scene Reconstruction ICCV 2025

DSPNet: Dual-vision Scene Perception for Robust 3D Question Answering CVPR 2025

Multi-Modal Synergistic Implicit Image Enhancement for Efficient Optical Flow Estimation CVPR 2025

Textured Mesh Saliency: Bridging Geometry and Texture for Human Perception in 3D Graphics AAAI 2025

TaiwanVQA: A Benchmark for Visual Question Answering for Taiwanese Daily Life COLING 2025

HyperGLM: HyperGraph for Video Scene Graph Generation and Anticipation CVPR 2025

RUBIK: A Structured Benchmark for Image Matching across Geometric Challenges CVPR 2025

Focal Plane Visual Feature Generation and Matching on a Pixel Processor Array ICCV 2025

ALOcc: Adaptive Lifting-Based 3D Semantic Occupancy and Cost Volume-Based Flow Predictions ICCV 2025

Alignment-Free RGB-T Salient Object Detection: A Large-Scale Dataset and Progressive Correlation Network AAAI 2025

MIMO: Controllable Character Video Synthesis with Spatial Decomposed Modeling CVPR 2025

Reasoning Mamba: Hypergraph-Guided Region Relation Calculating for Weakly Supervised Affordance Grounding CVPR 2025

GlyphMastero: A Glyph Encoder for High-Fidelity Scene Text Editing CVPR 2025

A Hyperdimensional One Place Signature to Represent Them All: Stackable Descriptors For Visual Place Recognition ICCV 2025

MovieBench: A Hierarchical Movie Level Dataset for Long Video Generation CVPR 2025

Gaze-LLE: Gaze Target Estimation via Large-Scale Learned Encoders CVPR 2025

PVMamba: Parallelizing Vision Mamba via Dynamic State Aggregation ICCV 2025

Scene Coordinate Reconstruction Priors ICCV 2025

The Confidence Paradox: Can LLM Know When It’s Wrong? IJCNLP 2025

INTERCHART: Benchmarking Visual Reasoning Across Decomposed and Distributed Chart Information IJCNLP 2025

Planar Affine Rectification from Local Change of Scale and Orientation ICCV 2025

No More Sibling Rivalry: Debiasing Human-Object Interaction Detection ICCV 2025