Primus: A Pioneering Collection of Open-Source Datasets for Cybersecurity LLM Training

Yao-Ching Yu; Tsun-Han Chiang; Cheng-Wei Tsai; Chien-Ming Huang; Wen-Kwang Tsao

2025 EMNLP EMNLP 2025

Primus: A Pioneering Collection of Open-Source Datasets for Cybersecurity LLM Training

Abstract

AbstractLarge Language Models (LLMs) have shown remarkable advancements in specialized fields such as finance, law, and medicine. However, in cybersecurity, we have noticed a lack of open-source datasets, with a particular lack of high-quality cybersecurity pretraining corpora, even though much research indicates that LLMs acquire their knowledge during pretraining. To address this, we present a comprehensive suite of datasets covering all major training stages, including pretraining, instruction fine-tuning, and reasoning distillation with cybersecurity-specific self-reflection data. Extensive ablation studies demonstrate their effectiveness on public cybersecurity benchmarks. In particular, continued pre-training on our dataset yields a **15.9%** improvement in the aggregate score, while reasoning distillation leads to a **15.8%** gain in security certification (CISSP). We will release all datasets and trained cybersecurity LLMs under the ODC-BY and MIT licenses to encourage further research in the community.

🌉 Interdisciplinary Bridge — Artificial Intelligence and Computer Science and Deep Learning and Natural Language Processing

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Knowledge & Reasoning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Robotics, Security & Privacy, Speech & Audio

Authors

Yao-Ching Yu , Tsun-Han Chiang , Cheng-Wei Tsai , Chien-Ming Huang , Wen-Kwang Tsao

Topics

Artificial Intelligence > Core AI > Responsible AI Natural Language Processing > Resources & Methods > Large Language Models Computer Science > Applications > Cybersecurity Artificial Intelligence > Core AI > Large Language Models Deep Learning > Techniques > Transfer Learning

Keywords

instruction tuning instruction fine-tuning large language model reasoning distillation

Download PDF

Related papers

Bit-Flip Error Resilience in LLMs: A Comprehensive Analysis and Defense Framework 2025

VoiceCraft-X: Unifying Multilingual, Voice-Cloning Speech Synthesis and Speech Editing 2025

Model-based Large Language Model Customization as Service 2025

ZoomEye: Enhancing Multimodal LLMs with Human-Like Zooming Capabilities through Tree-Based Image Exploration 2025

SlideCoder: Layout-aware RAG-enhanced Hierarchical Slide Generation from Design 2025