C3Net: Compound Conditioned ControlNet for Multimodal Content Generation

Juntao Zhang; Yuehuai Liu; Yu-Wing Tai; Chi-Keung Tang

2024 CVPR CVPR 2024

C3Net: Compound Conditioned ControlNet for Multimodal Content Generation

Abstract

We present Compound Conditioned ControlNet C3Net a novel generative neural architecture taking conditions from multiple modalities and synthesizing multimodal contents simultaneously (e.g. image text audio). C3Net adapts the ControlNet architecture to jointly train and make inferences on a production-ready diffusion model and its trainable copies. Specifically C3Net first aligns the conditions from multi-modalities to the same semantic latent space using modality-specific encoders based on contrastive training. Then it generates multimodal outputs based on the aligned latent space whose semantic information is combined using a ControlNet-like architecture called Control C3-UNet. Correspondingly with this system design our model offers an improved solution for joint-modality generation through learning and explaining multimodal conditions involving more than just linear interpolation within the latent space. Meanwhile as we align conditions to a unified latent space C3Net only requires one trainable Control C3-UNet to work on multimodal semantic information. Furthermore our model employs unimodal pretraining on the condition alignment stage outperforming the non-pretrained alignment even on relatively scarce training data and thus demonstrating high-quality compound condition generation. We contribute the first high-quality tri-modal validation set to validate quantitatively that C3Net outperforms or is on par with the first and contemporary state-of-the-art multimodal generation. Our codes and tri-modal dataset will be released.

🌉 Interdisciplinary Bridge — Computer Vision and Deep Learning and Machine Learning

🧭 Keyword Pioneer — controlnet architecture

🐣 Hot Topic Early Bird — audio generation

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Knowledge & Reasoning, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Robotics, Security & Privacy, Speech & Audio

Authors

Juntao Zhang , Yuehuai Liu , Yu-Wing Tai , Chi-Keung Tang

Topics

Machine Learning > Core Methods > Representation Learning Deep Learning > Architectures > Neural Networks Deep Learning > Models > Diffusion Models Computer Vision > Generation > Image Generation Computer Vision > Core AI > Multimodal Learning Machine Learning > Learning Types > Multi-Modal Learning Deep Learning > Techniques > Contrastive Learning

Keywords

image generation text generation diffusion model latent space contrastive training content generation audio generation multimodal generation controlnet architecture multimodal content generation

Download PDF

Related papers

DUSt3R: Geometric 3D Vision Made Easy 2024

Bezier Everywhere All at Once: Learning Drivable Lanes as Bezier Graphs 2024

NeRFDeformer: NeRF Transformation from a Single View via 3D Scene Flows 2024

Unleashing Unlabeled Data: A Paradigm for Cross-View Geo-Localization 2024

DIMAT: Decentralized Iterative Merging-And-Training for Deep Learning Models 2024