CoDi-2: In-Context Interleaved and Interactive Any-to-Any Generation

Zineng Tang; Ziyi Yang; Mahmoud Khademi; Yang Liu; Chenguang Zhu; Mohit Bansal

2024 CVPR CVPR 2024

CoDi-2: In-Context Interleaved and Interactive Any-to-Any Generation

Abstract

We present CoDi-2 a Multimodal Large Language Model (MLLM) for learning in-context interleaved multimodal representations. By aligning modalities with language for both encoding and generation CoDi-2 empowers Large Language Models (LLMs) to understand modality-interleaved instructions and in-context examples and autoregressively generate grounded and coherent multimodal outputs in an any-to-any input-output modality paradigm. To train CoDi-2 we build a large-scale generation dataset encompassing in-context multimodal instructions across text vision and audio. CoDi-2 demonstrates a wide range of zero-shot and few-shot capabilities for tasks like editing exemplar learning composition reasoning etc. CoDi-2 surpasses previous domain-specific models on tasks such as subject-driven image generation vision transformation and audio editing and showcases a significant advancement for integrating diverse multimodal tasks with sequential generation.

🌉 Interdisciplinary Bridge — Artificial Intelligence and Computer Vision and Deep Learning and Natural Language Processing and Speech & Audio

🧭 Keyword Pioneer — interleaved generation

🐣 Hot Topic Early Bird — modality alignment

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Knowledge & Reasoning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Robotics, Security & Privacy, Speech & Audio

Authors

Zineng Tang , Ziyi Yang , Mahmoud Khademi , Yang Liu , Chenguang Zhu , Mohit Bansal

Topics

Artificial Intelligence > Core AI > Multimodal Learning Deep Learning > Techniques > Pretraining Computer Vision > Generation > Image Generation Natural Language Processing > Generation > Text Generation Speech & Audio > Synthesis > Text-to-Speech Deep Learning > Models > Large Language Models Deep Learning > Learning Types > In-Context Learning Artificial Intelligence > Core AI > Multi-Modal Learning Deep Learning > Models > Multi-Modal Learning

Keywords

image generation in-context learning text generation image editing modality alignment multimodal large language model audio generation multimodal generation large language model interleaved generation any-to-any modality any-to-any generation vision transformation

Download PDF

Related papers

DUSt3R: Geometric 3D Vision Made Easy 2024

Bezier Everywhere All at Once: Learning Drivable Lanes as Bezier Graphs 2024

NeRFDeformer: NeRF Transformation from a Single View via 3D Scene Flows 2024

Unleashing Unlabeled Data: A Paradigm for Cross-View Geo-Localization 2024

DIMAT: Decentralized Iterative Merging-And-Training for Deep Learning Models 2024