Computer Vision › Analysis ›

Scene Understanding

1887 directly classified papers

Papers per year

Papers

IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments CVPR 2025

Fast3R: Towards 3D Reconstruction of 1000+ Images in One Forward Pass CVPR 2025

RUBIK: A Structured Benchmark for Image Matching across Geometric Challenges CVPR 2025

Bridging Language and Scenes through Explicit 3-D Model Construction COLING 2025

UrBench: A Comprehensive Benchmark for Evaluating Large Multimodal Models in Multi-View Urban Scenarios AAAI 2025

Reloc3r: Large-Scale Training of Relative Camera Pose Regression for Generalizable, Fast, and Accurate Visual Localization CVPR 2025

Textured Mesh Saliency: Bridging Geometry and Texture for Human Perception in 3D Graphics AAAI 2025

NoiseController: Towards Consistent Multi-view Video Generation via Noise Decomposition and Collaboration ICCV 2025

Where am I? Cross-View Geo-localization with Natural Language Descriptions ICCV 2025

Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding AAAI 2025

3D-LLaVA: Towards Generalist 3D LMMs with Omni Superpoint Transformer CVPR 2025

DeRainGS: Gaussian Splatting for Enhanced Scene Reconstruction in Rainy Environments AAAI 2025

GlyphPattern: An Abstract Pattern Recognition for Vision-Language Models ACL 2025

Image-Guided Shape-from-Template Using Mesh Inextensibility Constraints ICCV 2025

Semantic Segmentation on Raindrop Degraded Images Using Two-Stage Dual Teacher-Student Learning AAAI 2025

VisHall3D: Monocular Semantic Scene Completion from Reconstructing the Visible Regions to Hallucinating the Invisible Regions ICCV 2025

Vision-Language Models Struggle to Align Entities across Modalities ACL 2025

MTVQA: Benchmarking Multilingual Text-Centric Visual Question Answering ACL 2025

TaiwanVQA: A Benchmark for Visual Question Answering for Taiwanese Daily Life COLING 2025

Omni-Chart-600K: A Comprehensive Dataset of Chart Types for Chart Understanding NAACL 2025

CUET-NLP_Big_O@DravidianLangTech 2025: A Multimodal Fusion-based Approach for Identifying Misogyny Memes NAACL 2025

Trace3D: Consistent Segmentation Lifting via Gaussian Instance Tracing ICCV 2025

Hierarchical 3D Scene Graphs Construction Outdoors ICCV 2025

NTSEBENCH: Cognitive Reasoning Benchmark for Vision Language Models NAACL 2025

REGNav: Room Expert Guided Image-Goal Navigation AAAI 2025