Cloaked Classifiers: Pseudonymization Strategies on Sensitive Classification Tasks

Arij Riabi; Menel Mahamdi; Virginie Mouilleron; Djamé Seddah

2024 ACL ACL 2024

Cloaked Classifiers: Pseudonymization Strategies on Sensitive Classification Tasks

Abstract

AbstractProtecting privacy is essential when sharing data, particularly in the case of an online radicalization dataset that may contain personal information. In this paper, we explore the balance between preserving data usefulness and ensuring robust privacy safeguards, since regulations like the European GDPR shape how personal information must be handled. We share our method for manually pseudonymizing a multilingual radicalization dataset, ensuring performance comparable to the original data. Furthermore, we highlight the importance of establishing comprehensive guidelines for processing sensitive NLP data by sharing our complete pseudonymization process, our guidelines, the challenges we encountered as well as the resulting dataset.

🧭 Keyword Pioneer — data pseudonymization

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Knowledge & Reasoning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Security & Privacy, Speech & Audio

Authors

Arij Riabi , Menel Mahamdi , Virginie Mouilleron , Djamé Seddah

Topics

Machine Learning > Application Areas > Fairness Machine Learning > Application Areas > Privacy

Keywords

privacy protection multilingual dataset personal information data pseudonymization sensitive classification

Download PDF

Related papers

Reinforcement Learning-Driven LLM Agent for Automated Attacks on LLMs 2024

EtymoLink: A Structured English Etymology Dataset 2024

Turkish Delights: A Dataset on Turkish Euphemisms 2024

Subjectivity Detection in English News using Large Language Models 2024

Does DetectGPT Fully Utilize Perturbation? Bridging Selective Perturbation to Fine-tuned Contrastive Learning Detector would be Better 2024