LTRC_IIITH’s 2023 Submission for Prompting Large Language Models as Explainable Metrics Task

Pavan Baswani; Ananya Mukherjee; Manish Shrivastava

2023 AACL AACL 2023

LTRC_IIITH’s 2023 Submission for Prompting Large Language Models as Explainable Metrics Task

Abstract

AbstractIn this report, we share our contribution to the Eval4NLP Shared Task titled “Prompting Large Language Models as Explainable Metrics.” We build our prompts with a primary focus on effective prompting strategies, score-aggregation, and explainability for LLM-based metrics. We participated in the track for smaller models by submitting the scores along with their explanations. According to the Kendall correlation scores on the leaderboard, our MT evaluation submission ranks second-best, while our summarization evaluation submission ranks fourth, with only a 0.06 difference from the leading submission.

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Knowledge & Reasoning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Robotics, Security & Privacy, Speech & Audio

Authors

Pavan Baswani , Ananya Mukherjee , Manish Shrivastava

Topics

Natural Language Processing > Generation > Summarization Natural Language Processing > Resources & Methods > Large Language Models

Keywords

prompt engineering summarization evaluation machine translation evaluation score aggregation large language model

Download PDF

Related papers

We Need to Talk About Classification Evaluation Metrics in NLP 2023

A Novel Dataset Towards Extracting Virus-Host Interactions 2023

Improving Neural Machine Translation with Offline Evaluations 2023

Perplexity-Driven Case Encoding Needs Augmentation for CAPITALIZATION Robustness 2023

Are Machine Reading Comprehension Systems Robust to Context Paraphrasing? 2023