Visual Recognition by Request

Chufeng Tang; Lingxi Xie; XIAOPENG ZHANG; Xiaolin Hu; Qi Tian

2023 CVPR CVPR 2023

Visual Recognition by Request

Abstract

Humans have the ability of recognizing visual semantics in an unlimited granularity, but existing visual recognition algorithms cannot achieve this goal. In this paper, we establish a new paradigm named visual recognition by request (ViRReq) to bridge the gap. The key lies in decomposing visual recognition into atomic tasks named requests and leveraging a knowledge base, a hierarchical and text-based dictionary, to assist task definition. ViRReq allows for (i) learning complicated whole-part hierarchies from highly incomplete annotations and (ii) inserting new concepts with minimal efforts. We also establish a solid baseline by integrating language-driven recognition into recent semantic and instance segmentation methods, and demonstrate its flexible recognition ability on CPP and ADE20K, two datasets with hierarchical whole-part annotations.

🌉 Interdisciplinary Bridge — Artificial Intelligence and Computer Vision and Knowledge & Reasoning and Machine Learning

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Knowledge & Reasoning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Robotics, Security & Privacy, Speech & Audio

Authors

Chufeng Tang , Lingxi Xie , XIAOPENG ZHANG , Xiaolin Hu , Qi Tian

Topics

Machine Learning > Core Methods > Representation Learning Computer Vision > Analysis > Semantic Segmentation Knowledge & Reasoning > Representation > Knowledge Representation Computer Vision > Analysis > Object Segmentation Artificial Intelligence > Core AI > Knowledge Computer Vision > Analysis > Instance Segmentation

Keywords

semantic segmentation hierarchical learning instance segmentation knowledge base hierarchical representation visual recognition hierarchical annotation

Download PDF

Related papers

CORA: Adapting CLIP for Open-Vocabulary Detection With Region Prompting and Anchor Pre-Matching 2023

3DAvatarGAN: Bridging Domains for Personalized Editable Avatars 2023

Physics-Driven Diffusion Models for Impact Sound Synthesis From Videos 2023

Transductive Few-Shot Learning With Prototype-Based Label Propagation by Iterative Graph Refinement 2023

EXIF As Language: Learning Cross-Modal Associations Between Images and Camera Metadata 2023