Maintaining Reasoning Consistency in Compositional Visual Question Answering

Chenchen Jing; Yunde Jia; Yuwei Wu; Xinyu Liu; Qi Wu

2022 CVPR CVPR 2022

Maintaining Reasoning Consistency in Compositional Visual Question Answering

Abstract

A compositional question refers to a question that contains multiple visual concepts (e.g., objects, attributes, and relationships) and requires compositional reasoning to answer. Existing VQA models can answer a compositional question well, but cannot work well in terms of reasoning consistency in answering the compositional question and its sub-questions. For example, a compositional question for an image is: "Are there any elephants to the right of the white bird?" and one of its sub-questions is " Is any bird visible in the scene?". The models may answer "yes" to the compositional question, but "no" to the sub-question. This paper presents a dialog-like reasoning method for maintaining reasoning consistency in answering a compositional question and its sub-questions. Our method integrates the reasoning processes for the sub-questions into the reasoning process for the compositional question like a dialog task, and uses a consistency constraint to penalize inconsistent answer predictions. In order to enable quantitative evaluation of reasoning consistency, we construct a GQA-Sub dataset based on the well-organized GQA dataset. Experimental results on the GQA dataset and the GQA-Sub dataset demonstrate the effectiveness of our method.

🌉 Interdisciplinary Bridge — Artificial Intelligence and Computer Vision and Natural Language Processing

🧭 Keyword Pioneer — reasoning consistency

🐣 Hot Topic Early Bird — compositional reasoning

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Knowledge & Reasoning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Robotics

Authors

Chenchen Jing , Yunde Jia , Yuwei Wu , Xinyu Liu , Qi Wu

Topics

Computer Vision > Processing > Video Understanding Natural Language Processing > Applications > Question Answering Artificial Intelligence > Core AI > Reasoning Computer Vision > Core AI > Multimodal Learning Natural Language Processing > Applications > Visual Question Answering Computer Vision > Generation > Visual Question Answering

Keywords

visual question answering compositional reasoning sub-question decomposition compositional question consistency constraint reasoning consistency dialog-like reasoning compositional visual question answering

Download PDF

Related papers

UniCoRN: A Unified Conditional Image Repainting Network 2022

Why Discard if You Can Recycle?: A Recycling Max Pooling Module for 3D Point Cloud Analysis 2022

All-in-One Image Restoration for Unknown Corruption 2022

Stability-Driven Contact Reconstruction From Monocular Color Images 2022

Forecasting Characteristic 3D Poses of Human Actions 2022