Artificial Intelligence › Core AI ›

Adversarial Learning

1235 directly classified papers

Papers per year

Papers

GRADA: Graph-based Reranking against Adversarial Documents Attack EMNLP 2025

PBCAT: Patch-Based Composite Adversarial Training against Physically Realizable Attacks on Object Detection ICCV 2025

Attention Eclipse: Manipulating Attention to Bypass LLM Safety-Alignment EMNLP 2025

Breaking Agents: Compromising Autonomous LLM Agents Through Malfunction Amplification EMNLP 2025

Same Question, Different Words: A Latent Adversarial Framework for Prompt Robustness EMNLP 2025

Adversarial Training for Probabilistic Robustness ICCV 2025

Turning Logic Against Itself: Probing Model Defenses Through Contrastive Questions EMNLP 2025

Gradient Inversion Attacks on Parameter-Efficient Fine-Tuning CVPR 2025

TempParaphraser: “Heating Up” Text to Evade AI-Text Detection through Paraphrasing EMNLP 2025

Adversarial Robust Memory-Based Continual Learner ICCV 2025

Divide and Conquer: Heterogeneous Noise Integration for Diffusion-based Adversarial Purification CVPR 2025

FastJSMA: Accelerating Jacobian-based Saliency Map Attacks through Gradient Decoupling ICCV 2025

TombRaider: Entering the Vault of History to Jailbreak Large Language Models EMNLP 2025

VisCRA: A Visual Chain Reasoning Attack for Jailbreaking Multimodal Large Language Models EMNLP 2025

Your Language Model Can Secretly Write Like Humans: Contrastive Paraphrase Attacks on LLM-Generated Text Detectors EMNLP 2025

Visual Contextual Attack: Jailbreaking MLLMs with Image-Driven Context Injection EMNLP 2025

SUA: Stealthy Multimodal Large Language Model Unlearning Attack EMNLP 2025

RedHerring Attack: Testing the Reliability of Attack Detection EMNLP 2025

SPIRIT: Patching Speech Language Models against Jailbreak Attacks EMNLP 2025

Jailbreak LLMs through Internal Stance Manipulation EMNLP 2025

AIP: Subverting Retrieval-Augmented Generation via Adversarial Instructional Prompt EMNLP 2025

SABER: Uncovering Vulnerabilities in Safety Alignment via Cross-Layer Residual Connection EMNLP 2025

Phi: Preference Hijacking in Multi-modal Large Language Models at Inference Time EMNLP 2025

TrojanWave: Exploiting Prompt Learning for Stealthy Backdoor Attacks on Large Audio-Language Models EMNLP 2025

HeTa: Relation-wise Heterogeneous Graph Foundation Attack Model IJCAI 2025