YOLO-Count: Differentiable Object Counting for Text-to-Image Generation

Guanning Zeng; Xiang Zhang; Zirui Wang; Haiyang Xu; Zeyuan Chen; Bingnan Li; Zhuowen Tu

2025 ICCV ICCV 2025

YOLO-Count: Differentiable Object Counting for Text-to-Image Generation

Abstract

We propose YOLO-Count, a differentiable open-vocabulary object counting model that tackles both general counting challenges and enables precise quantity control for text-to-image (T2I) generation. A core contribution is the 'cardinality' map, a novel regression target that accounts for variations in object size and spatial distribution. Leveraging representation alignment and a hybrid strong-weak supervision scheme, YOLO-Count bridges the gap between open-vocabulary counting and T2I generation control. Its fully differentiable architecture facilitates gradient-based optimization, enabling accurate object count estimation and fine-grained guidance for generative models. Extensive experiments demonstrate that YOLO-Count achieves state-of-the-art counting accuracy while providing robust and effective quantity control for T2I systems.

🌉 Interdisciplinary Bridge — Computer Vision and Deep Learning

🧭 Keyword Pioneer — cardinality map

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Knowledge & Reasoning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Robotics, Security & Privacy, Speech & Audio

Authors

Guanning Zeng , Xiang Zhang , Zirui Wang , Haiyang Xu , Zeyuan Chen , Bingnan Li , Zhuowen Tu

Topics

Deep Learning > Models > Generative Models Deep Learning > Techniques Computer Vision > Analysis > Object Detection Computer Vision > Generation > Image Generation Deep Learning > Learning Types > Multi-Modal Learning

Keywords

gradient-based optimization open-vocabulary detection text-to-image generation differentiable programming object counting representation alignment cardinality map

Download PDF

Related papers

MA-CIR: A Multimodal Arithmetic Benchmark for Composed Image Retrieval 2025

SimMLM: A Simple Framework for Multi-modal Learning with Missing Modality 2025

MonSTeR: a Unified Model for Motion, Scene, Text Retrieval 2025

ASGS: Single-Domain Generalizable Open-Set Object Detection via Adaptive Subgraph Searching 2025

Robust Dataset Condensation using Supervised Contrastive Learning 2025