Mitigating Data Poisoning in Text Classification with Differential Privacy

Chang Xu; Jun Wang; Francisco Guzmán; Benjamin Rubinstein; Trevor Cohn

2021 EMNLP EMNLP 2021

Mitigating Data Poisoning in Text Classification with Differential Privacy

Abstract

AbstractNLP models are vulnerable to data poisoning attacks. One type of attack can plant a backdoor in a model by injecting poisoned examples in training, causing the victim model to misclassify test instances which include a specific pattern. Although defences exist to counter these attacks, they are specific to an attack type or pattern. In this paper, we propose a generic defence mechanism by making the training process robust to poisoning attacks through gradient shaping methods, based on differentially private training. We show that our method is highly effective in mitigating, or even eliminating, poisoning attacks on text classification, with only a small cost in predictive accuracy.

🌉 Interdisciplinary Bridge — Machine Learning and Natural Language Processing and Security & Privacy

🧭 Keyword Pioneer — gradient shaping

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Knowledge & Reasoning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Security & Privacy, Speech & Audio

Authors

Chang Xu , Jun Wang , Francisco Guzmán , Benjamin Rubinstein , Trevor Cohn

Topics

Machine Learning > Application Areas > Privacy Natural Language Processing > Applications > Text Classification Security & Privacy > Differential Privacy Machine Learning > Learning Types > Privacy

Keywords

differential privacy data poisoning text classification backdoor attack gradient shaping

Download PDF

Related papers

Continual Learning in Multilingual NMT via Language-Specific Embeddings 2021

MultiDoc2Dial: Modeling Dialogues Grounded in Multiple Documents 2021

Efficient Multi-Task Auxiliary Learning: Selecting Auxiliary Data by Feature Similarity 2021

Neural Machine Translation with Heterogeneous Topic Knowledge Embeddings 2021

Semantics-Preserved Data Augmentation for Aspect-Based Sentiment Analysis 2021