Location-Aware Visual Question Generation with Lightweight Models

Nicholas Suwono; Justin Chen; Tun Hung; Ting-Hao Huang; I-Bin Liao; Yung-Hui Li; Lun-Wei Ku; Shao-Hua Sun

2023 EMNLP EMNLP 2023

Location-Aware Visual Question Generation with Lightweight Models

Abstract

AbstractThis work introduces a novel task, location-aware visual question generation (LocaVQG), which aims to generate engaging questions from data relevant to a particular geographical location. Specifically, we represent such location-aware information with surrounding images and a GPS coordinate. To tackle this task, we present a dataset generation pipeline that leverages GPT-4 to produce diverse and sophisticated questions. Then, we aim to learn a lightweight model that can address the LocaVQG task and fit on an edge device, such as a mobile phone. To this end, we propose a method which can reliably generate engaging questions from location-aware information. Our proposed method outperforms baselines regarding human evaluation (e.g., engagement, grounding, coherence) and automatic evaluation metrics (e.g., BERTScore, ROUGE-2). Moreover, we conduct extensive ablation studies to justify our proposed techniques for both generating the dataset and solving the task.

🌉 Interdisciplinary Bridge — Artificial Intelligence and Computer Vision and Deep Learning and Machine Learning

🧭 Keyword Pioneer — location-aware computing

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Knowledge & Reasoning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Robotics, Security & Privacy, Speech & Audio

Authors

Nicholas Suwono , Justin Chen , Tun Hung , Ting-Hao Huang , I-Bin Liao , Yung-Hui Li , Lun-Wei Ku , Shao-Hua Sun

Topics

Artificial Intelligence > Core AI > Multimodal Learning Artificial Intelligence > Core AI > Procedural Generation Machine Learning > Application Areas > Efficient Computing Deep Learning > Learning Types > Multi-Modal Learning Deep Learning > Optimization & Theory > Efficient Computing Computer Vision > Generation > Visual Question Answering

Keywords

multimodal learning edge computing lightweight model visual question generation gps coordinate location-aware computing

Download PDF

Related papers

Exploring Linguistic Probes for Morphological Generalization 2023

NameGuess: Column Name Expansion for Tabular Data 2023

Vision-Enhanced Semantic Entity Recognition in Document Images via Visually-Asymmetric Consistency Learning 2023

Improving Conversational Recommendation Systems via Bias Analysis and Language-Model-Enhanced Data Augmentation 2023

On the Calibration of Large Language Models and Alignment 2023