Enhancing Object Detection Training via Joint Image-Annotation Generation

Roy Uziel; Oded Bialer

2026 WACV WACV 2026

Enhancing Object Detection Training via Joint Image-Annotation Generation

Abstract

Incorporating generated annotated data into training sets can improve object detection. Prior approaches either condition image generation on annotation layouts, limiting diversity and often causing misalignment, or generate images independently and annotate them afterward, reducing accuracy. We introduce a diffusion model that jointly generates images and annotations, enabling their co-evolution and mutual dependency throughout the process. This design achieves tight image-annotation alignment and produces diverse scenarios beyond the original training set, enhancing object detection performance when used in training.

🌉 Interdisciplinary Bridge — Computer Vision and Deep Learning and Machine Learning

🧭 Keyword Pioneer — image-annotation alignment

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Knowledge & Reasoning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Robotics, Security & Privacy, Speech & Audio