Artificial Intelligence › Core AI ›

Reasoning

2595 directly classified papers

Papers per year

Papers

bbStar at SemEval-2025 Task 10: Improving Narrative Classification and Explanation via Fine Tuned Language Models ACL 2025

Sparks of Tabular Reasoning via Text2SQL Reinforcement Learning ACL 2025

How well do LLMs reason over tabular data, really? ACL 2025

The Power of Simplicity in LLM-Based Event Forecasting ACL 2025

Weight-of-Thought Reasoning: Exploring Neural Network Weights for Enhanced LLM Reasoning ACL 2025

HW-TSC’s Submissions to the WMT 2025 Segment-level Quality Score Prediction Task EMNLP 2025

The ClimateCheck Shared Task: Scientific Fact-Checking of Social Media Claims about Climate Change ACL 2025

111DUT at SemEval-2025 Task 8:Hierarchical Chain-of-Thought Reasoning and Multi-Model Deliberation for Robust TableQA ACL 2025

UZH at SemEval-2025 Task 3: Token-Level Self-Consistency for Hallucination Detection ACL 2025

TableWise at SemEval-2025 Task 8: LLM Agents for TabQA ACL 2025

SBU-NLP at SemEval-2025 Task 8: Self-Correction and Collaboration in LLMs for Tabular Question Answering ACL 2025

Firefly Team at SemEval-2025 Task 8: Question-Answering over Tabular Data using SQL/Python generation with Closed-Source Large Language Models ACL 2025

Ad-hoc Concept Forming in the Game Codenames as a Means for Evaluating Large Language Models ACL 2025

Evaluating Intermediate Reasoning of Code-Assisted Large Language Models for Mathematics ACL 2025

From Calculation to Adjudication: Examining LLM Judges on Mathematical Reasoning Tasks ACL 2025

Theorem-of-Thought: A Multi-Agent Framework for Abductive, Deductive, and Inductive Reasoning in Language Models ACL 2025

Does “Reasoning” with Large Language Models Improve Recognizing, Generating and Reframing Unhelpful Thoughts? ACL 2025

The Art of Tool Interface Design ACL 2025

ToolReflection: Improving Large Language Models for Real-World API Calls with Self-Generated Data ACL 2025

StateAct: Enhancing LLM Base Agents via Self-prompting and State-tracking ACL 2025

VeReaFine: Iterative Verification Reasoning Refinement RAG for Hallucination-Resistant on Open-Ended Clinical QA ACL 2025

What is an “Abstract Reasoner”? Revisiting Experiments and Arguments about Large Language Models ACL 2025

SANCTUARY: An Efficient Evidence-based Automated Fact Checking System ACL 2025

Big Escape Benchmark: Evaluating Human-Like Reasoning in Language Models via Real-World Escape Room Challenges ACL 2025

DayDreamer at CQs-Gen 2025: Generating Critical Questions through Argument Scheme Completion ACL 2025