← Optimization & Theory

Machine Learning › Optimization & Theory ›

Statistical Learning

4076 directly classified papers

Papers per year

Papers

CliME: Evaluating Multimodal Climate Discourse on Social Media and the Climate Alignment Quotient (CAQ) ACL 2025

See the World, Discover Knowledge: A Chinese Factuality Evaluation for Large Vision Language Models ACL 2025

MemeQA: Holistic Evaluation for Meme Understanding ACL 2025

The Linguistic Connectivities Within Large Language Models ACL 2025

Predicate-Conditional Conformalized Answer Sets for Knowledge Graph Embeddings ACL 2025

Language Model Probabilities are Not Calibrated in Numeric Contexts ACL 2025

BEIR-NL: Zero-shot Information Retrieval Benchmark for the Dutch Language COLING 2025

Evaluating Calibration of Arabic Pre-trained Language Models on Dialectal Text COLING 2025

CNS-Bench: Benchmarking Image Classifier Robustness Under Continuous Nuisance Shifts ICCV 2025

Do LLMs Give Psychometrically Plausible Responses in Educational Assessments? ACL 2025

Quantifying Memorization in Continual Pre-training with Japanese General or Industry-Specific Corpora ACL 2025

Memorization is Language-Sensitive: Analyzing Memorization and Inference Risks of LLMs in a Multilingual Setting ACL 2025

From Data to Knowledge: Evaluating How Efficiently Language Models Learn Facts ACL 2025

IRNLP at SemEval-2025 Task 10: Multilingual Narrative Characterization and Classification ACL 2025

Crowdsource, Crawl, or Generate? Creating SEA-VL, a Multicultural Vision-Language Dataset for Southeast Asia ACL 2025

Random Splitting Negatively Impacts NER Evaluation: Quantifying and Eliminating the Overestimation of NER Performance ACL 2025

LLMSR@XLLM25: A Language Model-Based Pipeline for Structured Reasoning Data Construction ACL 2025

Revisiting Scaling Laws for Language Models: The Role of Data Quality and Training Strategies ACL 2025

Statistical inference on black-box generative models in the data kernel perspective space ACL 2025

Measuring Data Diversity for Instruction Tuning: A Systematic Analysis and A Reliable Metric ACL 2025

The Alternative Annotator Test for LLM-as-a-Judge: How to Statistically Justify Replacing Human Annotators with LLMs ACL 2025

SConU: Selective Conformal Uncertainty in Large Language Models ACL 2025

When Should Dense Retrievers Be Updated in Evolving Corpora? Detecting Out-of-Distribution Corpora Using GradNormIR ACL 2025

Beyond Text Compression: Evaluating Tokenizers Across Scales ACL 2025

A Framework for Large-Scale Parallel Corpus Evaluation: Ensemble Quality Estimation Models Versus Human Assessment ACL 2025