That Ain’t Right: Assessing LLM Performance on QA in African American and West African English Dialects

William Coggins; Jasmine McKenzie; Sangpil Youm; Pradham Mummaleti; Juan Gilbert; Eric Ragan; Bonnie J Dorr

2025 EMNLP EMNLP 2025

That Ain’t Right: Assessing LLM Performance on QA in African American and West African English Dialects

Abstract

AbstractAs Large Language Models (LLMs) gain mainstream public usage, understanding how users interact with them becomes increasingly important. Limited variety in training data raises concerns about LLM reliability across different language inputs. To explore this, we test several LLMs using functionally equivalent prompts expressed in different English sublanguages. We frame this analysis using Question-Answer (QA) pairs, which allow us to detect and evaluate appropriate and anomalous model behavior. We contribute a cross-LLM testing method and a new QA dataset translated into AAVE and WAPE variants. Early results reveal a notable drop in accuracy for one sublanguage relative to the baseline.

🌉 Interdisciplinary Bridge — Artificial Intelligence and Machine Learning and Natural Language Processing

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Knowledge & Reasoning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Robotics, Security & Privacy, Speech & Audio

Authors

William Coggins , Jasmine McKenzie , Sangpil Youm , Pradham Mummaleti , Juan Gilbert , Eric Ragan , Bonnie J Dorr

Topics

Machine Learning > Application Areas > Fairness Natural Language Processing > Applications > Question Answering Artificial Intelligence > Core AI > Large Language Models

Keywords

question answering language model evaluation african american english dialect variation large language model english dialect

Download PDF

Related papers

Bit-Flip Error Resilience in LLMs: A Comprehensive Analysis and Defense Framework 2025

VoiceCraft-X: Unifying Multilingual, Voice-Cloning Speech Synthesis and Speech Editing 2025

Model-based Large Language Model Customization as Service 2025

ZoomEye: Enhancing Multimodal LLMs with Human-Like Zooming Capabilities through Tree-Based Image Exploration 2025

SlideCoder: Layout-aware RAG-enhanced Hierarchical Slide Generation from Design 2025