← Learning Types

Deep Learning › Learning Types ›

Adversarial Learning

2063 directly classified papers

Papers per year

Papers

Augmented Adversarial Trigger Learning NAACL 2025

Q-FAKER: Query-free Hard Black-box Attack via Controlled Generation NAACL 2025

PRDetect: Perturbation-Robust LLM-generated Text Detection Based on Syntax Tree NAACL 2025

Battling Misinformation: An Empirical Study on Adversarial Factuality in Open-Source Large Language Models NAACL 2025

FaceShield: Defending Facial Image against Deepfake Threats ICCV 2025

Failure Cases Are Better Learned But Boundary Says Sorry: Facilitating Smooth Perception Change for Accuracy-Robustness Trade-Off in Adversarial Training ICCV 2025

Adversarial Reconstruction Feedback for Robust Fine-grained Generalization ICCV 2025

Improving Alignment and Robustness with Circuit Breakers NIPS 2024

United We Stand, Divided We Fall: Fingerprinting Deep Neural Networks via Adversarial Trajectories NIPS 2024

Attack Deterministic Conditional Image Generative Models for Diverse and Controllable Generation AAAI 2024

Improving Robustness of 3D Point Cloud Recognition from a Fourier Perspective NIPS 2024

Robust Safety Classifier Against Jailbreaking Attacks: Adversarial Prompt Shield NAACL 2024

Masking Latent Gender Knowledge for Debiasing Image Captioning NAACL 2024

Fight Back Against Jailbreaking via Prompt Adversarial Tuning NIPS 2024

LogoStyleFool: Vitiating Video Recognition Systems via Logo Style Transfer AAAI 2024

Transferable Adversarial Attacks for Object Detection Using Object-Aware Significant Feature Distortion AAAI 2024

Sandwich attack: Multi-language Mixture Adaptive Attack on LLMs NAACL 2024

Improving Word Sense Induction through Adversarial Forgetting of Morphosyntactic Information NAACL 2024

Shadowcast: Stealthy Data Poisoning Attacks Against Vision-Language Models NIPS 2024

Can Simple Averaging Defeat Modern Watermarks? NIPS 2024

Comparing the Robustness of Modern No-Reference Image- and Video-Quality Metrics to Adversarial Attacks AAAI 2024

Adversarially Trained Weighted Actor-Critic for Safe Offline Reinforcement Learning NIPS 2024

Everyday Object Meets Vision-and-Language Navigation Agent via Backdoor NIPS 2024

ART: Automatic Red-teaming for Text-to-Image Models to Protect Benign Users NIPS 2024

Rethinking the Paradigm of Content Constraints in Unpaired Image-to-Image Translation AAAI 2024