Filip Sondej

2 papers · 2025–2025 · 2 conferences · across top CS/AI conferences

Achievements

🌍 Conference Polyglot (2) 🌉 Interdisciplinary Bridge 🧭 Keyword Pioneer 🐝 Cross-Pollinator (15) ❓ The Questioner

Conferences

AAAI (1) EMNLP (1)

Top co-authors

Mikolaj Kniejski (1) Andrew Lee (1) Yushi Yang (1) Esben Kran (1) Christian Schroeder de Witt (1) Matthieu David (1) Pierre Peigné (1) Adam Mahdi (1) Jason Hoelscher-Obermaier (1) Harry Mayne (1)

Keywords

direct preference optimization (1) neural network analysis (1) ai safety (1) mechanistic interpretability (1) safety fine-tuning (1) activation editing (1) defense mechanism (1) neuron analysis (1) toxicity reduction (1) language model safety (1) multi-agent system (1) agent compromise (1) malicious prompt (1) security trade-off (1) collaboration capability (1) malicious instruction (1)

Papers

Multi-Agent Security Tax: Trading Off Security and Collaboration Capabilities in Multi-Agent Systems AAAI 2025

How Does DPO Reduce Toxicity? A Mechanistic Neuron-Level Analysis EMNLP 2025