PlanGPT-VL: Enhancing Urban Planning with Domain-Specific Vision-Language Models

He Zhu; Junyou Su; Minxin Chen; Wen Wang; Yijie Deng; Guanhua Chen; Wenjia Zhang

2025 EMNLP EMNLP 2025

PlanGPT-VL: Enhancing Urban Planning with Domain-Specific Vision-Language Models

Abstract

AbstractIn the field of urban planning, existing Vision-Language Models (VLMs) frequently fail to effectively analyze planning maps, which are critical for urban planners and educational contexts. Planning maps require specialized understanding of spatial configurations, regulatory requirements, and multi-scale analysis.To address this challenge, we introduce PlanGPT-VL, the first domain-specific VLM tailored for urban planning maps. PlanGPT-VL employs three innovations:(1) PlanAnno-V framework for high-quality VQA data synthesis,(2) Critical Point Thinking (CPT) to reduce hallucinations through structured verification, and(3) PlanBench-V benchmark for systematic evaluation.Evaluation on PlanBench-V shows that PlanGPT-VL outperforms general-purpose VLMs on planning map interpretation tasks, with our 7B model achieving performance comparable to larger 72B models.

🌉 Interdisciplinary Bridge — Artificial Intelligence and Computer Vision and Deep Learning

🧭 Keyword Pioneer — planning map

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Knowledge & Reasoning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Robotics, Security & Privacy, Speech & Audio

Authors

He Zhu , Junyou Su , Minxin Chen , Wen Wang , Yijie Deng , Guanhua Chen , Wenjia Zhang

Topics

Artificial Intelligence > Core AI > Multimodal Learning Computer Vision > Domain-Specific > Remote Sensing Artificial Intelligence > Core AI > Large Language Models Computer Vision > Core AI > Multimodal Learning Artificial Intelligence > Core AI > Multi-Modal Learning Computer Vision > Applications > Computer Vision Deep Learning > Models > Vision-Language Models

Keywords

visual question answering multimodal learning vision-language model hallucination reduction domain-specific model urban planning planning map map interpretation

Download PDF

Related papers

Bit-Flip Error Resilience in LLMs: A Comprehensive Analysis and Defense Framework 2025

VoiceCraft-X: Unifying Multilingual, Voice-Cloning Speech Synthesis and Speech Editing 2025

Model-based Large Language Model Customization as Service 2025

ZoomEye: Enhancing Multimodal LLMs with Human-Like Zooming Capabilities through Tree-Based Image Exploration 2025

SlideCoder: Layout-aware RAG-enhanced Hierarchical Slide Generation from Design 2025