Artificial Intelligence › Core AI ›

AI Safety

2972 directly classified papers

Papers per year

Papers

Monge blunts Bayes: Hardness Results for Adversarial Training ICML 2019

NATTACK: Learning the Distributions of Adversarial Examples for an Improved Black-Box Attack on Deep Neural Networks ICML 2019

Heterogeneous Gaussian Mechanism: Preserving Differential Privacy in Deep Learning with Provable Robustness IJCAI 2019

The Design of Human Oversight in Autonomous Weapon Systems IJCAI 2019

Learning to Discriminate Perturbations for Blocking Adversarial Attacks in Text Classification IJCNLP 2019

Global Robustness Evaluation of Deep Neural Networks with Provable Guarantees for the Hamming Distance IJCAI 2019

Safe and Sample-Efficient Reinforcement Learning Algorithms for Factored Environments IJCAI 2019

From Data to Knowledge Engineering for Cybersecurity IJCAI 2019

Sparse and Imperceivable Adversarial Attacks ICCV 2019

End-to-End Safe Reinforcement Learning through Barrier Functions for Safety-Critical Continuous Control Tasks AAAI 2019

A Bayesian Approach to Robust Reinforcement Learning UAI 2019

A Dual Approach to Verify and Train Deep Networks IJCAI 2019

Teaching AI Agents Ethical Values Using Reinforcement Learning and Policy Orchestration IJCAI 2019

AI in Recruiting. Multi-agent Systems Architecture for Ethical and Legal Auditing IJCAI 2019

Verifiable and Interpretable Reinforcement Learning through Program Synthesis AAAI 2019

ME-Net: Towards Effective Adversarial Robustness with Matrix Estimation ICML 2019

PROVEN: Verifying Robustness of Neural Networks with a Probabilistic Approach ICML 2019

The Dangers of Post-hoc Interpretability: Unjustified Counterfactual Explanations IJCAI 2019

Is Everything Going According to Plan? Expectations in Goal Reasoning Agents AAAI 2019

Interpreting and Evaluating Neural Network Robustness IJCAI 2019

DeepInspect: A Black-box Trojan Detection and Mitigation Framework for Deep Neural Networks IJCAI 2019

Robustra: Training Provable Robust Neural Networks over Reference Adversarial Space IJCAI 2019

PopBots: Designing an Artificial Intelligence Curriculum for Early Childhood Education AAAI 2019

Designing Preferences, Beliefs, and Identities for Artificial Intelligence AAAI 2019

Defending Against Adversarial Attacks by Randomized Diversification CVPR 2019