Papers

2,653 papers found

Minute-Long Videos with Dual Parallelisms

Zeqing Wang, Bowen Zheng, Xingyi Yang et al.

2026 AAAI

MUTrack: A Memory-Aware Unified Representation Framework for Visual Tracking

Weijing Wu, Qihua Liang, Bineng Zhong et al.

2026 AAAI

Retrieval-driven Reasoning for Deliberative Visual Classification

Jianye Xie, Lianyong Qi, Fan Wang et al.

2026 AAAI

SCALAR: Scale-wise Controllable Visual Autoregressive Learning

Ryan Xu, Dongyang Jin, Yancheng Bai et al.

2026 AAAI

Look-Back: Implicit Visual Re-focusing in MLLM Reasoning

Shuo Yang, Yuwei Niu, Yuyang Liu et al.

2026 AAAI

VAEVQ: Enhancing Discrete Visual Tokenization Through Variational Modeling

Sicheng Yang, Xing Hu, Qiang Wu et al.

2026 AAAI

When Eyes and Ears Disagree: Can MLLMs Discern Audio-Visual Confusion?

Qilang Ye, Wei Zeng, Meng Liu et al.

2026 AAAI

MedEyes: Learning Dynamic Visual Focus for Medical Progressive Diagnosis

Chunzheng Zhu, Yangfang Lin, Shen Chen et al.

2026 AAAI

Learning DFAs from Positive Examples Only via Word Counting

Benjamin Bordais, Daniel Neider

2026 AAAI

Making Visual Dialogue More Engaging: A New Task, Method, and Metric

Guanghui Ye, Huan Zhao, Yingxue Gao et al.

2026 AAAI

Leveraging Visual Blur Perception Characteristics for EEG Decoding

Wenchao Liu, Hongwei Li, Zhouyang Xu et al.

2026 AAAI

Multigranular Evaluation for Brain Visual Decoding

Weihao Xia, Cengiz Oztireli

2026 AAAI

Steering Visuomotor Policy in Open Worlds via Cross-View Goal Alignment

Shaofei Cai, Zhancun Mu, Anji Liu et al.

2026 AAAI

VPN: Visual Prompt Navigation

Shuo Feng, Zihan Wang, Yuchen Li et al.

2026 AAAI

UNeMo: Collaborative Visual-Language Reasoning and Navigation via a Multimodal World Model

Changxin Huang, Lv Tang, Zhaohuan Zhan et al.

2026 AAAI

SIFThinker: Spatially-Aware Image Focus for Visual Reasoning

Zhangquan Chen, Ruihui Zhao, Chuwei Luo et al.

2026 AAAI

Visual Bridge: Universal Visual Perception Representations Generating

Yilin Gao, Shuguang Dou, Junzhou Li et al.

2026 AAAI

rMMEA: Robust Multi-Modal Entity Alignment with Missing and Noise Visual Modality

Lingbing Guo, Zhuo Chen, Yichi Zhang et al.

2026 AAAI

Enhancing Spatial Reasoning Through Visual and Textual Thinking

Xun Liang, Xin Guo, Zhongming Jin et al.

2026 AAAI

E-Logic Prompt: Unified Energy-Logic Framework for Continual Visual Question Answering

Jiayao Tan, Tianle Liu, Fuyuan Hu et al.

2026 AAAI

MAVERIX: Multimodal Audio-Visual Evaluation and Recognition IndeX

Liuyue Xie, Avik Kuthiala, George Z Wei et al.

2026 AAAI

Learning Optimal Prompt Ensemble for Multi-source Visual Prompt Transfer

Enming Zhang, Liwen Cao, Yanru Wu et al.

2026 AAAI

GUI-Eyes: Tool-Augmented Perception for Visual Grounding in GUI Agents

Chen Chen, Jiawei Shao, Dakuan Lu et al.

2026 AAAI

From Representation to Reasoning: Toward General-Purpose Visual Intelligence

Chen Wei

2026 AAAI

Exploiting Graph-Based Structural Priors for Visual Recognition

Depanshu Sani

2026 AAAI