The WMDP Benchmark: Measuring and Reducing Malicious Use with Unlearning

2024 ICML ICML 2024

👥 Mega-Team — 46 authors

Nathaniel Li , Alexander Pan , Anjali Gopal , Summer Yue , Daniel Berrios , Alice Gatti , Justin D. Li , Ann-Kathrin Dombrowski , Shashwat Goel , Gabriel Mukobi , Nathan Helm-Burger , Rassin Lababidi , Lennart Justen , Andrew Bo Liu , Michael Chen , Isabelle Barrass , Oliver Zhang , Xiaoyuan Zhu , Rishub Tamirisa , Bhrugu Bharathi , Ariel Herbert-Voss , Cort B Breuer , Andy Zou , Mantas Mazeika , Zifan Wang , Palash Oswal , Weiran Lin , Adam Alfred Hunt , Justin Tienken-Harder , Kevin Y. Shih , Kemper Talley , John Guan , Ian Steneker , David Campbell , Brad Jokubaitis , Steven Basart , Stephen Fitz , Ponnurangam Kumaraguru , Kallol Krishna Karmakar , Uday Tupakula , Vijay Varadharajan , Yan Shoshitaishvili , Jimmy Ba , Kevin M. Esvelt , Alexandr Wang , Dan Hendrycks

Related papers