Kai Williams

2 papers · 2024–2024 · 2 conferences · across top CS/AI conferences

Achievements

🌉 Interdisciplinary Bridge 🧭 Keyword Pioneer 🌍 Conference Polyglot (2) 🐝 Cross-Pollinator (6) 🐣 Hot Topic Early Bird

Conferences

EMNLP (1) NIPS (1)

Top co-authors

Jan Wehner (2) Domenic Rosati (2) Hassan Sajjad (2) Frank Rudzicz (2) Carsten Maple (1) Lukasz Bartoszcze (1) Łukasz Bartoszcze (1) David Atanasov (1) Robie Gonzales (1) Subhabrata Majumdar (1)

Keywords

adversarial defense (2) fine-tuning attack (2) large language model (2) harmful fine-tuning (2) model safety (1) harmful content (1) representation noising (1) defense mechanism (1) llm safety (1) representation learning (1) model defense (1) adversarial learning (1) model security (1) model robustness (1)

Papers

Representation Noising: A Defence Mechanism Against Harmful Finetuning NIPS 2024

Immunization against harmful fine-tuning attacks EMNLP 2024