← Applications

Natural Language Processing › Applications ›

Visual Question Answering

219 directly classified papers

Papers per year

Papers

Modeling Motion With Multi-Modal Features for Text-Based Video Segmentation CVPR 2022

REVIVE: Regional Visual Representation Matters in Knowledge-Based Visual Question Answering NIPS 2022

OrdinalCLIP: Learning Rank Prompts for Language-Guided Ordinal Regression NIPS 2022

Structured Multi-Level Interaction Network for Video Moment Localization via Language Query CVPR 2021

Structured Co-reference Graph Attention for Video-grounded Dialogue AAAI 2021

Separating Skills and Concepts for Novel Visual Question Answering CVPR 2021

Collaborative Spatial-Temporal Modeling for Language-Queried Video Actor Segmentation CVPR 2021

KRISP: Integrating Implicit and Symbolic Knowledge for Open-Domain Knowledge-Based VQA CVPR 2021

Discovering the Unknown Knowns: Turning Implicit Knowledge in the Dataset into Explicit Training Examples for Visual Question Answering EMNLP 2021

VQA-MHUG: A Gaze Dataset to Study Multimodal Neural Attention in Visual Question Answering EMNLP 2021

MIRTT: Learning Multimodal Interaction Representations from Trilinear Transformers for Visual Question Answering EMNLP 2021

Towards Developing a Multilingual and Code-Mixed Visual Question Answering System by Knowledge Distillation EMNLP 2021

Cross-Modal Retrieval Augmentation for Multi-Modal Classification EMNLP 2021

Unshuffling Data for Improved Generalization in Visual Question Answering ICCV 2021

Auto-Parsing Network for Image Captioning and Visual Question Answering ICCV 2021

MiniVQA - A resource to build your tailored VQA competition NAACL 2021

MIMOQA: Multimodal Input Multimodal Output Question Answering NAACL 2021

Automatic Generation of Contrast Sets from Scene Graphs: Probing the Compositional Consistency of GQA NAACL 2021

Domain-Robust VQA With Diverse Datasets and Methods but No Target Labels CVPR 2021

VQA-MHUG: A Gaze Dataset to Study Multimodal Neural Attention in Visual Question Answering CONLL 2021

Referring Transformer: A One-step Approach to Multi-task Visual Grounding NIPS 2021

In Factuality: Efficient Integration of Relevant Facts for Visual Question Answering ACL 2021

Towards More Flexible and Accurate Object Tracking With Natural Language: Algorithms and Benchmark CVPR 2021

How Transferable Are Reasoning Patterns in VQA? CVPR 2021

Scan2Cap: Context-Aware Dense Captioning in RGB-D Scans CVPR 2021