The Future of Web Data Mining: Insights from Multimodal and Code-based Extraction Methods

Evan Fellman; Jacob Tyo; Zachary Lipton

2024 EACL EACL 2024

The Future of Web Data Mining: Insights from Multimodal and Code-based Extraction Methods

Abstract

AbstractThe extraction of structured data from websites is critical for numerous Artificial Intelligence applications, but modern web design increasingly stores information visually in images rather than in text. This shift calls into question the optimal technique, as language-only models fail without textual cues while new multimodal models like GPT-4 promise image understanding abilities. We conduct the first rigorous comparison between text-based and vision-based models for extracting event metadata harvested from comic convention websites. Surprisingly, our results between GPT-4 Vision and GPT-4 Text uncover a significant accuracy advantage for vision-based methods in an applies-to-apples setting, indicating that vision models may be outpacing language-alone techniques in the task of information extraction from websites. We release our dataset and provide a qualitative analysis to guide further research in multi-modal models for web information extraction.

🌉 Interdisciplinary Bridge — Computer Vision and Data Science & Analytics and Deep Learning and Machine Learning and Natural Language Processing

🧭 Keyword Pioneer — gpt-4 vision

🐣 Hot Topic Early Bird — structured datum

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Knowledge & Reasoning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Robotics, Security & Privacy, Speech & Audio

Authors

Evan Fellman , Jacob Tyo , Zachary Lipton

Topics

Computer Vision > Domain-Specific > Remote Sensing Natural Language Processing > Applications > Information Extraction Data Science & Analytics > Methods > Data Mining Machine Learning > Learning Types > Multi-Task Learning Deep Learning > Models > Large Language Models Computer Vision > Core AI > Multimodal Learning

Keywords

information extraction multimodal learning vision language model structured datum web data mining gpt-4 vision vision-based method

Download PDF

Related papers

A Dataset for Metaphor Detection in Early Medieval Hebrew Poetry 2024

PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation 2024

Overview of the Hate Speech Detection in Turkish and Arabic Tweets (HSD-2Lang) Shared Task at CASE 2024 2024

Evaluating In-Context Learning for Computational Literary Studies: A Case Study Based on the Automatic Recognition of Knowledge Transfer in German Drama 2024

Selam@DravidianLangTech 2024:Identifying Hate Speech and Offensive Language 2024