Research Explorer

Efficient LLM-Jailbreaking via Multimodal-LLM Jailbreak

Haoxuan Ji, Zheng Lin, Zhenxing Niu et al.

2026 AAAI

The Other Mind: How Language Models Exhibit Human Temporal Cognition

Lingyu Li, Yang Yao, Yixu Wang et al.

2026 AAAI

GeoShield: Safeguarding Geolocation Privacy from Vision-Language Models via Adversarial Perturbations

Xinwei Liu, Xiaojun Jia, Yuan Xun et al.

2026 AAAI

BLM-Guard: Explainable Multimodal Ad Moderation with Chain-of-Thought and Policy-Aligned Rewards

Yiran Yang, Zhaowei Liu, Yuan Yuan et al.

2026 AAAI

SafeR-CLIP: Mitigating NSFW Content in Vision-Language Models While Preserving Pre-Trained Knowledge

Adeel Yousaf, Joseph Fioresi, James Beetham et al.

2026 AAAI

First-Order Representation Languages for Goal-Conditioned RL

Simon Ståhlberg, Hector Geffner

2026 AAAI

Targeting in Multi-Criteria Decision Making

Nicolas Schwind, Patricia Everaere, Sébastien Konieczny et al.

2026 AAAI

MegaCoin: Enhancing Medium-Grained Color Perception for Vision-Language Models

Ming-Chang Chiu, Shicheng Wen, Pin-Yu Chen et al.

2026 AAAI

AMaPO: Adaptive Margin-attached Preference Optimization for Language Model Alignment

Ruibo Deng, Duanyu Feng, Wenqiang Lei

2026 AAAI

LieCraft: A Multi-Agent Framework for Evaluating Deceptive Capabilities in Language Models

Matthew Lyle Olson, Neale Ratzlaff, Musashi Hinck et al.

2026 AAAI

Backdoor Attacks on Open Vocabulary Object Detectors via Multi-Modal Prompt Tuning

Ankita Raj, Chetan Arora

2026 AAAI

Chain-of-Thought Driven Adversarial Scenario Extrapolation for Robust Language Models

Md Rafi Ur Rashid, Vishnu Asutosh Dasu, Ye Wang et al.

2026 AAAI

Polarity-Aware Probing for Quantifying Latent Alignment in Language Models

Sabrina Sadiekh, Elena Ericheva, Chirag Agarwal

2026 AAAI

EASE: Practical and Efficient Safety Alignment for Small Language Models

Haonan Shi, Guoli Wang, Tu Ouyang et al.

2026 AAAI

Beyond Verdicts: Evaluating Language Model Moral Competence

Aaron J Snoswell, Daniel Kilov, Seth Lazar

2026 AAAI

Benchmarking Trustworthiness in Multimodal LLMs for Video Understanding

Youze Wang, Zijun Chen, Ruoyu Chen et al.

2026 AAAI

Safe Multi-agent Reinforcement Learning with Natural Language Constraints

Ziyan Wang, Meng Fang, Tristan Tomilin et al.

2026 AAAI

MCA-Bench: A Multimodal Benchmark for Evaluating CAPTCHA Robustness Against VLM-based Attacks

Zonglin Wu, Yule Xue, Yaoyao Feng et al.

2026 AAAI

Multi-Faceted Attack: Exposing Cross-Model Vulnerabilities in Defense-Equipped Vision-Language Models

Yijun Yang, Lichao Wang, Jianping Zhang et al.

2026 AAAI

Can LLMs Detect Their Confabulations? Estimating Reliability in Uncertainty-Aware Language Models

Tianyi Zhou, Johanne Medina, Sanjay Chawla

2026 AAAI

On the Feasibility of Using MultiModal LLMs to Execute AR Social Engineering Attacks

Ting Bi, Chenghang Ye, Zheyu Yang et al.

2026 AAAI

SatSolarCast: A Flexible Framework for Multimodal Solar Irradiance Forecasting via Memory-Alignment Learning

Kuai Dai, Hui Su, Chengxing Zhai et al.

2026 AAAI

Crossing Borders: A Multimodal Challenge for Indian Poetry Translation and Image Generation

Sofia Jamil, Kotla Sai Charan, Sriparna Saha et al.

2026 AAAI

Language Models and Logic Programs for Trustworthy Tax Reasoning

William Jurayj, Nils Holzenberger, Benjamin Van Durme

2026 AAAI

TRACE: Textual Relevance Augmentation and Contextual Encoding for Multimodal Hate Detection

Girish A. Koushik, Helen Treharne, Aditya Joshi et al.

2026 AAAI

Papers