Language Models Do Not Embed Numbers Continuously (Student Abstract)

Alex Davies; Roussel Nzoyem Ngueguin; Nirav Ajmeri; Telmo de Menezes E Silva Filho

2026 AAAI AAAI 2026

Language Models Do Not Embed Numbers Continuously (Student Abstract)

Abstract

Abstract We evaluate how well large language model embeddings represent continuous numerical values across different precisions and ranges. Using linear models and principal component analysis on models from major providers, we show that while embeddings can reconstruct numbers with high fidelity (R2 ≥ 0.95), they introduce substantial noise, with principal components explaining less than 40% of embedding variance. Performance degrades with increasing decimal precision and mixed-sign values, revealing fundamental limitations in how these models encode numerical information.

🌉 Interdisciplinary Bridge — Machine Learning and Natural Language Processing

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Knowledge & Reasoning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Robotics, Security & Privacy, Speech & Audio

Authors

Alex Davies , Roussel Nzoyem Ngueguin , Nirav Ajmeri , Telmo de Menezes E Silva Filho

Topics

Machine Learning > Core Methods > Embedding Learning Machine Learning > Optimization & Theory > Statistical Learning Natural Language Processing > Resources & Methods > Large Language Models

Keywords

principal component analysis linear regression numerical representation embedding analysis large language model

Download PDF

Related papers

Hi-EF: Benchmarking Emotion Forecasting in Human-interaction 2026

MosaicDoc: A Large-Scale Bilingual Benchmark for Visually Rich Document Understanding 2026

Sparse3DPR: Training-Free 3D Hierarchical Scene Parsing and Task-Adaptive Subgraph Reasoning from Sparse RGB Views 2026

LayerEdit: Disentangled Multi-Object Editing via Conflict-Aware Multi-Layer Learning 2026

HDGS: Hierarchical Dynamic Gaussian Splatting for Urban Driving Scenes 2026