Artificial Intelligence › Core AI ›

AI Safety

2972 directly classified papers

Papers per year

Papers

RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models EMNLP 2020

Partial Adversarial Behavior Deception in Security Games IJCAI 2020

Adaptive Reward-Poisoning Attacks against Reinforcement Learning ICML 2020

Reevaluating Adversarial Examples in Natural Language EMNLP 2020

Responsive Safety in Reinforcement Learning by PID Lagrangian Methods ICML 2020

Robust Deep Learning as Optimal Control: Insights and Convergence Guarantees L4DC 2020

ML-LOO: Detecting Adversarial Examples with Feature Attribution AAAI 2020

Toward Operational Safety Verification of AI-Enabled CPS (Student Abstract) AAAI 2020

Robustness Certificates for Sparse Adversarial Attacks by Randomized Ablation AAAI 2020

Asymptotically Unambitious Artificial General Intelligence AAAI 2020

Deception through Half-Truths AAAI 2020

Generalized ODIN: Detecting Out-of-Distribution Image Without Learning From Out-of-Distribution Data CVPR 2020

Achieving 100Gbps Intrusion Prevention on a Single Server OSDI 2020

Branch and Bound for Piecewise Linear Neural Network Verification JMLR 2020

Cautious Adaptation For Reinforcement Learning in Safety-Critical Settings ICML 2020

Improving Robustness via Risk Averse Distributional Reinforcement Learning L4DC 2020

Reinforcement Learning for Safety-Critical Control under Model Uncertainty, using Control Lyapunov Functions and Control Barrier Functions RSS 2020

Learning Human Objectives by Evaluating Hypothetical Behavior ICML 2020

Safe Reinforcement Learning in Constrained Markov Decision Processes ICML 2020

Early Detection of Fake News by Utilizing the Credibility of News, Publishers, and Users based on Weakly Supervised Learning COLING 2020

Learning from Interventions Using Hierarchical Policies for Safe Learning AAAI 2020

Safe Policy Learning for Continuous Control CORL 2020

(De)Randomized Smoothing for Certifiable Defense against Patch Attacks NIPS 2020

Reactive motion planning with probabilisticsafety guarantees CORL 2020

Defending Against Model Stealing Attacks With Adaptive Misinformation CVPR 2020