← Optimization & Theory

Machine Learning › Optimization & Theory ›

Optimization

14207 directly classified papers

Papers per year

Papers

GlitchMiner: Mining Glitch Tokens in Large Language Models via Gradient-based Discrete Optimization AAAI 2026

Advanced Black-Box Tuning of Large Language Models with Limited API Calls AAAI 2026

Multi-Value Alignment for LLMs via Value Decorrelation and Extrapolation AAAI 2026

V-Pruner: A Fast and Globally-informed Token Pruning Framework for Vision Transformer AAAI 2026

Incorporating Self-Rewriting into Large Language Model Reasoning Reinforcement AAAI 2026

Hybrid Routing for a Mixture of LoRA Experts AAAI 2026

SPA: Achieving Consensus in LLM Alignment via Self-Priority Optimization AAAI 2026

BiCycle: Group-wise Recursive Transformer Based on ASR Mechanism AAAI 2026

Bootstrapping LLMs via Preference-Based Policy Optimization AAAI 2026

Importance-Aware Data Selection for Efficient LLM Instruction Tuning AAAI 2026

Model Whisper: Steering Vectors Unlock Large Language Models’ Potential in Test-Time AAAI 2026

Rethinking the Sampling Criteria in Reinforcement Learning for LLM Reasoning: A Competence-Difficulty Alignment Perspective AAAI 2026

DegVoC: Revisiting Neural Vocoder from a Degradation Perspective AAAI 2026

AdaFuse: Accelerating Dynamic Adapter Inference via Token-Level Pre-Gating and Fused Kernel Optimization AAAI 2026

ENCORE: Entropy-guided Reward Composition for Multi-head Safety Reward Models AAAI 2026

DMOSpeech 2: Reinforcement Learning for Duration Prediction in Metric-Optimized Speech Synthesis AAAI 2026

Efficient Thought Space Exploration Through Strategic Intervention AAAI 2026

RLMR: Reinforcement Learning with Mixed Rewards for Creative Writing AAAI 2026

SparseRM: A Lightweight Preference Modeling with Sparse Autoencoder AAAI 2026

LongLLaDA: Unlocking Long Context Capabilities in Diffusion LLMs AAAI 2026

Better Datasets Start from RefineLab: Automatic Optimization for High-Quality Dataset Refinement AAAI 2026

Inference-Aware Prompt Optimization for Aligning Black-Box Large Language Models AAAI 2026

Textual Self-Attention Network: Test-Time Preference Optimization Through Textual Gradient-Based Attention AAAI 2026

GateRA: Token-aware Modulation for Parameter-Efficient Fine-tuning AAAI 2026

Pre-DPO: Improving Data Utilization in Direct Preference Optimization Using a Guiding Reference Model AAAI 2026