Research Explorer

UReader: Universal OCR-free Visually-situated Language Understanding with Multimodal Large Language Model

Jiabo Ye, Anwen Hu, Haiyang Xu et al.

2023 EMNLP

Harnessing Multimodal Large Language Models for Multimodal Sequential Recommendation

Yuyang Ye, Zhi Zheng, Yishan Shen et al.

2025 AAAI

SafeEraser: Enhancing Safety in Multimodal Large Language Models through Multimodal Machine Unlearning

Junkai Chen, Zhijie Deng, Kening Zheng et al.

2025 ACL

Bridging Modalities: Improving Universal Multimodal Retrieval by Multimodal Large Language Models

Xin Zhang, Yanzhao Zhang, Wen Xie et al.

2025 CVPR

4D LangSplat: 4D Language Gaussian Splatting via Multimodal Large Language Models

Wanhua Li, Renping Zhou, Jiawei Zhou et al.

2025 CVPR

How Do Multimodal Large Language Models Handle Complex Multimodal Reasoning? Placing Them in An Extensible Escape Game

Ziyue Wang, Yurui Dong, Fuwen Luo et al.

2025 ICCV

Can Multimodal Large Language Models Truly Perform Multimodal In-Context Learning?

Shuo Chen, Zhen Han, Bailan He et al.

2025 WACV

MoME: Mixture of Multimodal Experts for Generalist Multimodal Large Language Models

Leyang Shen, Gongwei Chen, Rui Shao et al.

2024 NIPS

Towards Language-Driven Video Inpainting via Multimodal Large Language Models

Jianzong Wu, Xiangtai Li, Chenyang Si et al.

2024 CVPR

SimpleVQA: Multimodal Factuality Evaluation for Multimodal Large Language Models

Xianfu Cheng, Wei Zhang, Shiwei Zhang et al.

2025 ICCV

SignAlignLM: Integrating Multimodal Sign Language Processing into Large Language Models

Mert Inan, Anthony Sicilia, Malihe Alikhani

2025 ACL

MMRC: A Large-Scale Benchmark for Understanding Multimodal Large Language Model in Real-World Conversation

Haochen Xue, Feilong Tang, Ming Hu et al.

2025 ACL

Multimodal Causal Reasoning Benchmark: Challenging Multimodal Large Language Models to Discern Causal Links Across Modalities

Zhiyuan Li, Heng Wang, Dongnan Liu et al.

2025 ACL

Exploring and Evaluating Multimodal Knowledge Reasoning Consistency of Multimodal Large Language Models

Boyu Jia, Junzhe Zhang, Huixuan Zhang et al.

2025 EMNLP

Language Integration in Fine-Tuning Multimodal Large Language Models for Image-Based Regression

Roy H. Jennings, Genady Paikin, Roy Shaul et al.

2026 WACV

Dynamic-LLaVA: Efficient Multimodal Large Language Models via Dynamic Vision-language Context Sparsification

Wenxuan Huang, Zijie Zhai, Yunhang Shen et al.

2025 ICLR

Heuristic-Induced Multimodal Risk Distribution Jailbreak Attack for Multimodal Large Language Models

Teng Ma, Xiaojun Jia, Ranjie Duan et al.

2025 ICCV

Looking Beyond Text: Reducing Language Bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance

Haozhe Zhao, Shuzheng Si, Liang Chen et al.

2025 EMNLP

Enhancing Large Language Models for Scientific Multimodal Summarization with Multimodal Output

Zusheng Tan, Xinyi Zhong, Jing-Yu Ji et al.

2025 COLING

VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks

Jiannan Wu, Muyan Zhong, Sen Xing et al.

2024 NIPS

MMUnlearner: Reformulating Multimodal Machine Unlearning in the Era of Multimodal Large Language Models

Jiahao Huo, Yibo Yan, Xu Zheng et al.

2025 ACL

Can We Trust AI Doctors? A Survey of Medical Hallucination in Large Language and Large Vision-Language Models

Zhihong Zhu, Yunyan Zhang, Xianwei Zhuang et al.

2025 ACL

LMOD: A Large Multimodal Ophthalmology Dataset and Benchmark for Large Vision-Language Models

Zhenyue Qin, Yu Yin, Dylan Campbell et al.

2025 NAACL

Multimodal Needle in a Haystack: Benchmarking Long-Context Capability of Multimodal Large Language Models

Hengyi Wang, Haizhou Shi, Shiwei Tan et al.

2025 NAACL

MLLMGuard: A Multi-dimensional Safety Evaluation Suite for Multimodal Large Language Models

Tianle Gu, Zeyang Zhou, Kexin Huang et al.

2024 NIPS

Papers