Deep Learning › Techniques ›

Pretraining

2471 directly classified papers

Papers per year

Papers

Scale Is All You Need: Analyzing Modality Interaction and Speaker Intent Without Fine-Tuning EACL 2026

RobustFormer: Noise-Robust Pre-training for Images and Videos WACV 2026

Text Slider: Efficient and Plug-and-Play Continuous Concept Control for Image/Video Synthesis via LoRA Adapters WACV 2026

Focus-N-Fix: Region-Aware Fine-Tuning for Text-to-Image Generation CVPR 2025

FineLIP: Extending CLIP's Reach via Fine-Grained Alignment with Longer Text Inputs CVPR 2025

DaCapo: Score Distillation as Stacked Bridge for Fast and High-quality 3D Editing CVPR 2025

UniPre3D: Unified Pre-training of 3D Point Cloud Models with Cross-Modal Gaussian Splatting CVPR 2025

Mind the Time: Temporally-Controlled Multi-Event Video Generation CVPR 2025

Charm: The Missing Piece in ViT Fine-Tuning for Image Aesthetic Assessment CVPR 2025

Marten: Visual Question Answering with Mask Generation for Multi-modal Document Understanding CVPR 2025

ViiNeuS: Volumetric Initialization for Implicit Neural Surface Reconstruction of Urban Scenes with Limited Image Overlap CVPR 2025

From Slow Bidirectional to Fast Autoregressive Video Diffusion Models CVPR 2025

Advancing Manga Analysis: Comprehensive Segmentation Annotations for the Manga109 Dataset CVPR 2025

Scaling Down Text Encoders of Text-to-Image Diffusion Models CVPR 2025

Diagnosing Pretrained Models for Out-of-distribution Detection ICCV 2025

DV-Matcher: Deformation-based Non-rigid Point Cloud Matching Guided by Pre-trained Visual Features CVPR 2025

Zero-shot RGB-D Point Cloud Registration with Pre-trained Large Vision Model CVPR 2025

Continual SFT Matches Multimodal RLHF with Negative Supervision CVPR 2025

Local Dense Logit Relations for Enhanced Knowledge Distillation ICCV 2025

TrafficLoc: Localizing Traffic Surveillance Cameras in 3D Scenes ICCV 2025

Correlative and Discriminative Label Grouping for Multi-Label Visual Prompt Tuning CVPR 2025

Position Really Matters: Towards a Holistic Approach for Prompt Tuning NAACL 2025

EgoM2P: Egocentric Multimodal Multitask Pretraining ICCV 2025

Inference-Time Diffusion Model Distillation ICCV 2025

MAP: Unleashing Hybrid Mamba-Transformer Vision Backbone's Potential with Masked Autoregressive Pretraining CVPR 2025