← Optimization & Theory

Machine Learning › Optimization & Theory ›

Theory

4950 directly classified papers

Papers per year

Papers

Examining False Positives under Inference Scaling for Mathematical Reasoning EMNLP 2025

Can LLMs Reason Abstractly Over Math Word Problems Without CoT? Disentangling Abstract Formulation From Arithmetic Computation EMNLP 2025

Calibration Across Layers: Understanding Calibration Evolution in LLMs EMNLP 2025

RLMEval: Evaluating Research-Level Neural Theorem Proving EMNLP 2025

Diagnosing Memorization in Chain-of-Thought Reasoning, One Token at a Time EMNLP 2025

AssoCiAm: A Benchmark for Evaluating Association Thinking while Circumventing Ambiguity EMNLP 2025

RCScore: Quantifying Response Consistency in Large Language Models EMNLP 2025

OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain EMNLP 2025

DMDTEval: An Evaluation and Analysis of LLMs on Disambiguation in Multi-domain Translation EMNLP 2025

VRBench: A Benchmark for Multi-Step Reasoning in Long Narrative Videos ICCV 2025

MDSEval: A Meta-Evaluation Benchmark for Multimodal Dialogue Summarization EMNLP 2025

On Evaluating LLMs’ Capabilities as Functional Approximators: A Bayesian Evaluation Framework COLING 2025

Date Fragments: A Hidden Bottleneck of Tokenization for Temporal Reasoning EMNLP 2025

ESGenius: Benchmarking LLMs on Environmental, Social, and Governance (ESG) and Sustainability Knowledge EMNLP 2025

Evaluating Sensitivity Consistency of Explanations WACV 2025

From Alexnet to Transformers: Measuring the Non-linearity of Deep Neural Networks with Affine Optimal Transport CVPR 2025

Learning to Normalize on the SPD Manifold under Bures-Wasserstein Geometry CVPR 2025

ULTRABENCH: Benchmarking LLMs under Extreme Fine-grained Text Generation EMNLP 2025

Benchmarking Object Detectors under Real-World Distribution Shifts in Satellite Imagery CVPR 2025

VI^3NR: Variance Informed Initialization for Implicit Neural Representations CVPR 2025

Dynamic Pseudo Labeling via Gradient Cutting for High-Low Entropy Exploration CVPR 2025

Tightening Robustness Verification of MaxPool-based Neural Networks via Minimizing the Over-Approximation Zone CVPR 2025

Disentangling Safe and Unsafe Image Corruptions via Anisotropy and Locality CVPR 2025

Reliability of Topic Modeling NAACL 2025

LLMs Are Not Intelligent Thinkers: Introducing Mathematical Topic Tree Benchmark for Comprehensive Evaluation of LLMs NAACL 2025