Artificial Intelligence › Core AI ›

Adversarial Learning

1235 directly classified papers

Papers per year

Papers

Nullspace Disentanglement for Red Teaming Language Models EMNLP 2025

Gradient-Reweighted Adversarial Camouflage for Physical Object Detection Evasion ICCV 2025

Enhancing LLM-Based Social Bot via an Adversarial Learning Framework EMNLP 2025

NEXUS: Network Exploration for eXploiting Unsafe Sequences in Multi-Turn LLM Jailbreaks EMNLP 2025

Harmful Prompt Laundering: Jailbreaking LLMs with Abductive Styles and Symbolic Encoding EMNLP 2025

Same Question, Different Words: A Latent Adversarial Framework for Prompt Robustness EMNLP 2025

TempParaphraser: “Heating Up” Text to Evade AI-Text Detection through Paraphrasing EMNLP 2025

Turning Logic Against Itself: Probing Model Defenses Through Contrastive Questions EMNLP 2025

Breaking Agents: Compromising Autonomous LLM Agents Through Malfunction Amplification EMNLP 2025

Evading Toxicity Detection with ASCII-art: A Benchmark of Spatial Attacks on Moderation Systems ACL 2025

Stealthy Jailbreak Attacks on Large Language Models via Benign Data Mirroring NAACL 2025

Mind the Gap: Detecting Black-box Adversarial Attacks in the Making through Query Update Analysis CVPR 2025

Mind the Trojan Horse: Image Prompt Adapter Enabling Scalable and Deceptive Jailbreaking CVPR 2025

BitAbuse: A Dataset of Visually Perturbed Texts for Defending Phishing Attacks NAACL 2025

Silence is Golden: Leveraging Adversarial Examples to Nullify Audio Control in LDM-based Talking-Head Generation CVPR 2025

Adversarial Domain Prompt Tuning and Generation for Single Domain Generalization CVPR 2025

AutoBreach: Universal and Adaptive Jailbreaking with Efficient Wordplay-Guided Optimization via Multi-LLMs NAACL 2025

Model Poisoning Attacks to Federated Learning via Multi-Round Consistency CVPR 2025

Saliuitl: Ensemble Salience Guided Recovery of Adversarial Patches against CNNs CVPR 2025

GraphProt: Certified Black-Box Shielding Against Backdoored Graph Models IJCAI 2025

Query-Based and Unnoticeable Graph Injection Attack from Neighborhood Perspective IJCAI 2025

Your Scale Factors are My Weapon: Targeted Bit-Flip Attacks on Vision Transformers via Scale Factor Manipulation CVPR 2025

I2VGuard: Safeguarding Images against Misuse in Diffusion-based Image-to-Video Models CVPR 2025

Silent Branding Attack: Trigger-free Data Poisoning Attack on Text-to-Image Diffusion Models CVPR 2025

Temporal Unlearnable Examples: Preventing Personal Video Data from Unauthorized Exploitation by Object Tracking ICCV 2025