Computer Vision › Analysis ›

Visual Question Answering

70 directly classified papers

Papers per year

Papers

Similarity Maps for Self-Training Weakly-Supervised Phrase Grounding CVPR 2023

Divide and Conquer: Answering Questions With Object Factorization and Compositional Reasoning CVPR 2023

ECHo: A Visio-Linguistic Dataset for Event Causality Inference via Human-Centric Reasoning EMNLP 2023

Target-Aware Spatio-Temporal Reasoning via Answering Questions in Dynamic Audio-Visual Scenarios EMNLP 2023

Learning the Dynamics of Visual Relational Reasoning via Reinforced Path Routing AAAI 2022

MuMuQA: Multimedia Multi-Hop News Question Answering via Cross-Media Knowledge Extraction and Grounding AAAI 2022

Towards Robust Visual Question Answering: Making the Most of Biased Samples via Contrastive Learning EMNLP 2022

What’s Different between Visual Question Answering for Machine “Understanding” Versus for Accessibility? IJCNLP 2022

Grounding Answers for Visual Questions Asked by Visually Impaired People CVPR 2022

Flexible Visual Grounding ACL 2022

Debiasing Event Understanding for Visual Commonsense Tasks ACL 2022

Perception Matters: Detecting Perception Failures of VQA Models Using Metamorphic Testing CVPR 2021

MIMOQA: Multimodal Input Multimodal Output Question Answering NAACL 2021

FIXMYPOSE: Pose Correctional Captioning and Retrieval AAAI 2021

Self-supervised Pre-training and Contrastive Representation Learning for Multiple-choice Video QA AAAI 2021

Are VQA Systems RAD? Measuring Robustness to Augmented Data with Focused Interventions ACL 2021

Predicting Human Scanpaths in Visual Question Answering CVPR 2021

Goal-Oriented Gaze Estimation for Zero-Shot Learning CVPR 2021

COVR: A Test-Bed for Visually Grounded Compositional Generalization with Real Images EMNLP 2021

MIRTT: Learning Multimodal Interaction Representations from Trilinear Transformers for Visual Question Answering EMNLP 2021

V-PROM: A Benchmark for Visual Reasoning Using Visual Progressive Matrices AAAI 2020

Learning to Contrast the Counterfactual Samples for Robust Visual Question Answering EMNLP 2020

TVQA+: Spatio-Temporal Grounding for Video Question Answering ACL 2020

History for Visual Dialog: Do we really need it? ACL 2020

A negative case analysis of visual grounding methods for VQA ACL 2020