FactDebug at SemEval-2025 Task 7: Hybrid Retrieval Pipeline for Identifying Previously Fact-Checked Claims Across Multiple Languages

Evgenii Nikolaev; Ivan Bondarenko; Islam Aushev; Vasilii Krikunov; Andrei Glinskii; Vasily Konovalov; Julia Belikova

2025 ACL ACL 2025

FactDebug at SemEval-2025 Task 7: Hybrid Retrieval Pipeline for Identifying Previously Fact-Checked Claims Across Multiple Languages

Abstract

AbstractThe proliferation of multilingual misinformation demands robust systems for crosslingual fact-checked claim retrieval. This paper addresses SemEval-2025 Shared Task 7, which challenges participants to retrieve fact-checks for social media posts across 14 languages, even when posts and fact-checks are in different languages. We propose a hybrid retrieval pipeline that combines sparse lexical matching (BM25, BGE-m3) and dense semantic retrieval (pretrained and fine-tuned BGE-m3) with dynamic fusion and curriculum-trained rerankers. Our system achieves 67.2% crosslingual and 86.01% monolingual accuracy on the Shared Task MultiClaim dataset.

🐝 Cross-Pollinator — Artificial Intelligence, Interdisciplinary, Knowledge & Reasoning, Natural Language Processing

🌉 Interdisciplinary Bridge — Artificial Intelligence and Deep Learning and Machine Learning and Natural Language Processing

🧭 Keyword Pioneer — multilingual misinformation

Authors

Evgenii Nikolaev , Ivan Bondarenko , Islam Aushev , Vasilii Krikunov , Andrei Glinskii , Vasily Konovalov , Julia Belikova

Topics

Artificial Intelligence > Core AI > Foundation Models Machine Learning > Optimization & Theory > Optimization Natural Language Processing > Applications > Fact-Checking Natural Language Processing > Applications > Information Retrieval Deep Learning > Models > Large Language Models Machine Learning > Application Areas > Information Retrieval Artificial Intelligence > Core AI > Multi-Modal Learning Deep Learning > Learning Types > Retrieval-Augmented Generation

Keywords

fact-checking multilingual retrieval claim verification semantic retrieval misinformation detection cross-lingual retrieval hybrid retrieval multilingual misinformation dense semantic retrieval

Download PDF

Graphically Speaking: Unmasking Abuse in Social Media with Conversation Insights 2025

CodeTool: Enhancing Programmatic Tool Invocation of LLMs via Process Supervision 2025

Structural Deep Encoding for Table Question Answering 2025

Vision-aided Unsupervised Constituency Parsing with Multi-MLLM Debating 2025

FactDebug at SemEval-2025 Task 7: Hybrid Retrieval Pipeline for Identifying Previously Fact-Checked Claims Across Multiple Languages

Abstract

Authors

Topics

Keywords

Related papers