VizSeq: a visual analysis toolkit for text generation tasks

Changhan Wang; Anirudh Jain; Danlu Chen; Jiatao Gu

2019 IJCNLP IJCNLP 2019

VizSeq: a visual analysis toolkit for text generation tasks

Abstract

AbstractAutomatic evaluation of text generation tasks (e.g. machine translation, text summarization, image captioning and video description) usually relies heavily on task-specific metrics, such as BLEU and ROUGE. They, however, are abstract numbers and are not perfectly aligned with human assessment. This suggests inspecting detailed examples as a complement to identify system error patterns. In this paper, we present VizSeq, a visual analysis toolkit for instance-level and corpus-level system evaluation on a wide variety of text generation tasks. It supports multimodal sources and multiple text references, providing visualization in Jupyter notebook or a web app interface. It can be used locally or deployed onto public servers for centralized data hosting and benchmarking. It covers most common n-gram based metrics accelerated with multiprocessing, and also provides latest embedding-based metrics such as BERTScore.

🌉 Interdisciplinary Bridge — Computer Vision and Natural Language Processing

🐣 Hot Topic Early Bird — evaluation metrics

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Knowledge & Reasoning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Robotics, Security & Privacy, Speech & Audio

Authors

Changhan Wang , Anirudh Jain , Danlu Chen , Jiatao Gu

Topics

Computer Vision > Generation > Image Captioning Natural Language Processing > Generation > Summarization Natural Language Processing > Generation > Text Generation Natural Language Processing > Generation > Image Captioning

Keywords

machine translation text generation image captioning text summarization evaluation metrics

Download PDF

Related papers

Fine-grained Knowledge Fusion for Sequence Labeling Domain Adaptation 2019

Exploiting Monolingual Data at Scale for Neural Machine Translation 2019

Distributionally Robust Language Modeling 2019

Unsupervised Domain Adaptation of Contextualized Embeddings for Sequence Labeling 2019

ARAML: A Stable Adversarial Training Framework for Text Generation 2019