FinMMDocR: Benchmarking Financial Multimodal Reasoning with Scenario Awareness, Document Understanding, and Multi-Step Computation

Zichen Tang; Haihong E; Rongjin Li; Jiacheng Liu; Linwei Jia; Zhuodi Hao; Zhongjun Yang; Yuanze Li; Haolin Tian; Xinyi Hu; Peizhi Zhao; Yuan Liu; Zhengyu Wang; Xianghe Wang; Yiling Huang; Xueyuan Lin; Ruofei Bai; Zijian Xie; Qian Huang; Ruining Cao; Haocheng Gao

2026 AAAI AAAI 2026

FinMMDocR: Benchmarking Financial Multimodal Reasoning with Scenario Awareness, Document Understanding, and Multi-Step Computation

Abstract

Abstract We introduce FinMMDocR, a novel bilingual multimodal benchmark for evaluating multimodal large language models (MLLMs) on real-world financial numerical reasoning. Compared to existing benchmarks, our work delivers three major advancements. (1) Scenario Awareness: 57.9% of 1,200 expert-annotated problems incorporate 12 types of implicit financial scenarios (e.g., Portfolio Management), challenging models to perform expert-level reasoning based on assumptions; (2) Document Understanding: 837 Chinese/English documents spanning 9 types (e.g., Company Research) average 50.8 pages with rich visual elements, significantly surpassing existing benchmarks in both breadth and depth of financial documents; (3) Multi-Step Computation: Problems demand 11-step reasoning on average (5.3 extraction + 5.7 calculation steps), with 65.0% requiring cross-page evidence (2.4 pages average). The best-performing MLLM achieves only 58.0% accuracy, and different retrieval-augmented generation (RAG) methods show significant performance variations on this task. We expect FinMMDocR to drive improvements in MLLMs and reasoning-enhanced methods on complex multimodal reasoning tasks in real-world scenarios.

👥 Mega-Team — 21 authors

🧭 Keyword Pioneer — scenario awareness

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Knowledge & Reasoning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Robotics, Security & Privacy, Speech & Audio

Authors

Zichen Tang , Haihong E , Rongjin Li , Jiacheng Liu , Linwei Jia , Zhuodi Hao , Zhongjun Yang , Yuanze Li , Haolin Tian , Xinyi Hu , Peizhi Zhao , Yuan Liu , Zhengyu Wang , Xianghe Wang , Yiling Huang , Xueyuan Lin , Ruofei Bai , Zijian Xie , Qian Huang , Ruining Cao , Haocheng Gao

Topics

Artificial Intelligence > Core AI > Multimodal Learning

Keywords

document understanding multimodal large language model financial reasoning scenario awareness multi-step computation

Download PDF

Related papers

Hi-EF: Benchmarking Emotion Forecasting in Human-interaction 2026

MosaicDoc: A Large-Scale Bilingual Benchmark for Visually Rich Document Understanding 2026

Sparse3DPR: Training-Free 3D Hierarchical Scene Parsing and Task-Adaptive Subgraph Reasoning from Sparse RGB Views 2026

LayerEdit: Disentangled Multi-Object Editing via Conflict-Aware Multi-Layer Learning 2026

HDGS: Hierarchical Dynamic Gaussian Splatting for Urban Driving Scenes 2026