MMSum: A Dataset for Multimodal Summarization and Thumbnail Generation of Videos

Jielin Qiu; Jiacheng Zhu; William Han; Aditesh Kumar; Karthik Mittal; Claire Jin; Zhengyuan Yang; Linjie Li; Jianfeng Wang; Ding Zhao; Bo Li; Lijuan Wang

2024 CVPR CVPR 2024

MMSum: A Dataset for Multimodal Summarization and Thumbnail Generation of Videos

Abstract

Multimodal summarization with multimodal output (MSMO) has emerged as a promising research direction. Nonetheless numerous limitations exist within existing public MSMO datasets including insufficient maintenance data inaccessibility limited size and the absence of proper categorization which pose significant challenges. To address these challenges and provide a comprehensive dataset for this new direction we have meticulously curated the MMSum dataset. Our new dataset features (1) Human-validated summaries for both video and textual content providing superior human instruction and labels for multimodal learning. (2) Comprehensively and meticulously arranged categorization spanning 17 principal categories and 170 subcategories to encapsulate a diverse array of real-world scenarios. (3) Benchmark tests performed on the proposed dataset to assess various tasks and methods including video summarization text summarization and multimodal summarization. To champion accessibility and collaboration we released the MMSum dataset and the data collection tool as fully open-source resources fostering transparency and accelerating future developments.

🌉 Interdisciplinary Bridge — Computer Vision and Deep Learning and Natural Language Processing

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Knowledge & Reasoning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Robotics, Security & Privacy, Speech & Audio

Authors

Jielin Qiu , Jiacheng Zhu , William Han , Aditesh Kumar , Karthik Mittal , Claire Jin , Zhengyuan Yang , Linjie Li , Jianfeng Wang , Ding Zhao , Bo Li , Lijuan Wang

Topics

Deep Learning > Models > Generative Models Computer Vision > Generation > Image Generation Computer Vision > Generation > Video Generation Computer Vision > Processing > Video Processing Computer Vision > Processing > Video Understanding Natural Language Processing > Generation > Summarization

Keywords

multimodal learning text summarization video summarization multimodal summarization thumbnail generation

Download PDF

Related papers

DUSt3R: Geometric 3D Vision Made Easy 2024

Bezier Everywhere All at Once: Learning Drivable Lanes as Bezier Graphs 2024

NeRFDeformer: NeRF Transformation from a Single View via 3D Scene Flows 2024

Unleashing Unlabeled Data: A Paradigm for Cross-View Geo-Localization 2024

DIMAT: Decentralized Iterative Merging-And-Training for Deep Learning Models 2024