Why Do Open-Source LLMs Struggle with Data Analysis? A Systematic Empirical Study

YUQI ZHU; Yi Zhong; Jintian Zhang; Ziheng Zhang; Shuofei Qiao; Yujie Luo; Lun Du; Da Zheng; Ningyu Zhang; Huajun Chen

2026 AAAI AAAI 2026

Why Do Open-Source LLMs Struggle with Data Analysis? A Systematic Empirical Study

Abstract

Abstract Large Language Models (LLMs) hold promise in automating data analysis tasks, yet open-source models face significant limitations in these kinds of reasoning-intensive scenarios. In this work, we investigate strategies to enhance the data analysis capabilities of open-source LLMs. By curating a seed dataset of diverse, realistic scenarios, we evaluate models across three dimensions: data understanding, code generation, and strategic planning. Our analysis reveals three key findings: (1) Strategic planning quality serves as the primary determinant of model performance; (2) Interaction design and task complexity significantly influence reasoning capabilities; (3) Data quality demonstrates a greater impact than diversity in achieving optimal performance. We leverage these insights to develop a data synthesis methodology, demonstrating significant improvements in open-source LLMs' analytical reasoning capabilities.

❓ The Questioner

🌉 Interdisciplinary Bridge — Artificial Intelligence and Natural Language Processing

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Knowledge & Reasoning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Robotics, Security & Privacy, Speech & Audio

Authors

YUQI ZHU , Yi Zhong , Jintian Zhang , Ziheng Zhang , Shuofei Qiao , Yujie Luo , Lun Du , Da Zheng , Ningyu Zhang , Huajun Chen

Topics

Artificial Intelligence > Core AI > Planning Natural Language Processing > Resources & Methods > Large Language Models

Keywords

code generation data analysis open-source model large language model strategic planning

Download PDF

Related papers

Hi-EF: Benchmarking Emotion Forecasting in Human-interaction 2026

MosaicDoc: A Large-Scale Bilingual Benchmark for Visually Rich Document Understanding 2026

Sparse3DPR: Training-Free 3D Hierarchical Scene Parsing and Task-Adaptive Subgraph Reasoning from Sparse RGB Views 2026

LayerEdit: Disentangled Multi-Object Editing via Conflict-Aware Multi-Layer Learning 2026

HDGS: Hierarchical Dynamic Gaussian Splatting for Urban Driving Scenes 2026