← Domain-Specific

Computer Vision › Domain-Specific ›

Document Analysis

278 directly classified papers

Papers per year

Papers

MEH: A Multi-Style Dataset and Toolkit for Advancing Egyptian Hieroglyph Recognition ICCV 2025

SCITAT: A Question Answering Benchmark for Scientific Tables and Text Covering Diverse Reasoning Types ACL 2025

MatViX: Multimodal Information Extraction from Visually Rich Articles NAACL 2025

P²Net: Parallel Pointer-based Network for Key Information Extraction with Complex Layouts ACL 2025

CISOL: An Open and Extensible Dataset for Table Structure Recognition in the Construction Industry WACV 2025

Towards Storage-Efficient Visual Document Retrieval: An Empirical Study on Reducing Patch-Level Embeddings ACL 2025

DocTTT: Test-Time Training for Handwritten Document Recognition using Meta-Auxiliary Learning WACV 2025

READoc: A Unified Benchmark for Realistic Document Structured Extraction ACL 2025

TabComp: A Dataset for Visual Table Reading Comprehension NAACL 2025

AID-Agent: An LLM-Agent for Advanced Extraction and Integration of Documents ACL 2025

A Query-Response Framework for Whole-Page Complex-Layout Document Image Translation with Relevant Regional Concentration ACL 2025

Zero-Shot Styled Text Image Generation, but Make It Autoregressive CVPR 2025

Adaptive Markup Language Generation for Contextually-Grounded Visual Document Understanding CVPR 2025

DocSAM: Unified Document Image Segmentation via Query Decomposition and Heterogeneous Mixed Learning CVPR 2025

ORIDa: Object-centric Real-world Image Composition Dataset CVPR 2025

Marten: Visual Question Answering with Mask Generation for Multi-modal Document Understanding CVPR 2025

UnCommon Objects in 3D CVPR 2025

Image Over Text: Transforming Formula Recognition Evaluation with Character Detection Matching CVPR 2025

Hierarchical Adaptive Filtering Network for Text Image Specular Highlight Removal CVPR 2025

Linear Attention Modeling for Learned Image Compression CVPR 2025

Towards Comprehensive Lecture Slides Understanding: Large-scale Dataset and Effective Method ICCV 2025

Knowledge-Enhanced Historical Document Segmentation and Recognition AAAI 2024

A One-Shot Learning Approach To Document Layout Segmentation of Ancient Arabic Manuscripts WACV 2024

Hypergraph based Understanding for Document Semantic Entity Recognition ACL 2024

Benchmarking Visually-Situated Translation of Text in Natural Images EMNLP 2024