← Domain-Specific

Computer Vision › Domain-Specific ›

Document Analysis

278 directly classified papers

Papers per year

Papers

Unifying Vision, Text, and Layout for Universal Document Processing CVPR 2023

Towards Unified Scene Text Spotting Based on Sequence Generation CVPR 2023

GeoLayoutLM: Geometric Pre-Training for Visual Information Extraction CVPR 2023

A Multi-Modal Multilingual Benchmark for Document Image Classification EMNLP 2023

GenKIE: Robust Generative Multimodal Document Key Information Extraction EMNLP 2023

Fast-StrucTexT: An Efficient Hourglass Transformer with Modality-guided Dynamic Token Merge for Document Understanding IJCAI 2023

MPMQA: Multimodal Question Answering on Product Manuals AAAI 2023

Conditional Text Image Generation With Diffusion Models CVPR 2023

DeepSolo: Let Transformer Decoder With Explicit Points Solo for Text Spotting CVPR 2023

Document Image Shadow Removal Guided by Color-Aware Background CVPR 2023

VKIE: The Application of Key Information Extraction on Video Text EMNLP 2023

Pipeline Enabling Zero-shot Classification for Bangla Handwritten Grapheme EMNLP 2023

Modeling Entities As Semantic Points for Visual Information Extraction in the Wild CVPR 2023

Selective Labeling: How to Radically Lower Data-Labeling Costs for Document Extraction Models EMNLP 2023

Clinical BERTScore: An Improved Measure of Automatic Speech Recognition Performance in Clinical Settings ACL 2023

Modernizing Old Photos Using Multiple References via Photorealistic Style Transfer CVPR 2023

HRDoc: Dataset and Baseline Method toward Hierarchical Reconstruction of Document Structures AAAI 2023

TaCo: Textual Attribute Recognition via Contrastive Learning AAAI 2023

Towards Argument-Aware Abstractive Summarization of Long Legal Opinions with Summary Reranking ACL 2023

Characterization of Stigmatizing Language in Medical Records ACL 2023

Toward Expanding the Scope of Radiology Report Summarization to Multiple Anatomies and Modalities ACL 2023

The Ecological Fallacy in Annotation: Modeling Human Label Variation goes beyond Sociodemographics ACL 2023

On Task-personalized Multimodal Few-shot Learning for Visually-rich Document Entity Retrieval EMNLP 2023

Alignment-Enriched Tuning for Patch-Level Pre-trained Document Image Models AAAI 2023

A Question-Answering Approach to Key Value Pair Extraction from Form-Like Document Images AAAI 2023