亲爱的研友该休息了!由于当前在线用户较少,发布求助请尽量完整地填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!身体可是革命的本钱,早点休息,好梦!

Assessing Modality Bias in Video Question Answering Benchmarks with Multimodal Large Language Models

模态(人机交互) 答疑 计算机科学 自然语言处理 人工智能
作者
Jean Park,Kuk Jin Jang,Basam Alasaly,Sriharsha Mopidevi,Andrew Zolensky,Eric Eaton,Inseop Lee,Kevin B. Johnson
出处
期刊:Proceedings of the ... AAAI Conference on Artificial Intelligence [Association for the Advancement of Artificial Intelligence (AAAI)]
卷期号:39 (19): 19821-19829
标识
DOI:10.1609/aaai.v39i19.34183
摘要

Multimodal large language models (MLLMs) can simultaneously process visual, textual, and auditory data, capturing insights that complement human analysis. However, existing video question-answering (VidQA) benchmarks and datasets often exhibit a bias toward a single modality, despite the goal of requiring advanced reasoning skills that integrate diverse modalities to answer the queries. In this work, we introduce the modality importance score (MIS) to identify such bias. It is designed to assess which modality embeds the necessary information to answer the question. Additionally, we propose an innovative method using state-of-the-art MLLMs to estimate the modality importance, which can serve as a proxy for human judgments of modality perception. With this MIS, we demonstrate the presence of unimodal bias and the scarcity of genuinely multimodal questions in existing datasets. We further validate the modality importance score with multiple ablation studies to evaluate the performance of MLLMs on permuted feature sets. Our results indicate that current models do not effectively integrate information due to modality imbalance in existing datasets. Our proposed MLLM-derived MIS can guide the curation of modality-balanced datasets that advance multimodal learning and enhance MLLMs' capabilities to understand and utilize synergistic relations across modalities.

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
34秒前
cacaldon完成签到,获得积分10
59秒前
iShine完成签到 ,获得积分10
1分钟前
1分钟前
科研通AI2S应助科研通管家采纳,获得10
1分钟前
2分钟前
2分钟前
KINGAZX完成签到 ,获得积分10
2分钟前
2分钟前
lixuebin完成签到 ,获得积分10
2分钟前
kokoko完成签到,获得积分10
2分钟前
今后应助追寻的映雁采纳,获得10
2分钟前
田様应助科研小白采纳,获得10
2分钟前
laurentli完成签到 ,获得积分10
2分钟前
3分钟前
科研小白发布了新的文献求助10
3分钟前
科研小白完成签到,获得积分20
3分钟前
3分钟前
Jackie发布了新的文献求助10
3分钟前
3分钟前
酷波er应助科研通管家采纳,获得10
3分钟前
lr完成签到 ,获得积分10
3分钟前
3分钟前
Jackie完成签到,获得积分10
3分钟前
kyfbrahha完成签到 ,获得积分10
3分钟前
少夫人完成签到,获得积分10
4分钟前
4分钟前
火星完成签到 ,获得积分10
4分钟前
早晚完成签到 ,获得积分10
5分钟前
111完成签到 ,获得积分10
5分钟前
5分钟前
追风发布了新的文献求助10
5分钟前
梨子茶完成签到,获得积分10
5分钟前
任性白卉完成签到 ,获得积分10
6分钟前
运运完成签到 ,获得积分10
6分钟前
6分钟前
6分钟前
呼同学发布了新的文献求助10
6分钟前
知行者完成签到 ,获得积分10
7分钟前
StayGolDay完成签到,获得积分10
7分钟前
高分求助中
Les Mantodea de Guyane: Insecta, Polyneoptera [The Mantids of French Guiana] 2500
The Mother of All Tableaux Order, Equivalence, and Geometry in the Large-scale Structure of Optimality Theory 1370
Future Approaches to Electrochemical Sensing of Neurotransmitters 1000
生物降解型栓塞微球市场(按产品类型、应用和最终用户)- 2030 年全球预测 1000
壮语核心名词的语言地图及解释 900
Digital predistortion of memory polynomial systems using direct and indirect learning architectures 500
Canon of Insolation and the Ice-age Problem 380
热门求助领域 (近24小时)
化学 医学 材料科学 生物 工程类 有机化学 生物化学 物理 内科学 计算机科学 纳米技术 复合材料 化学工程 遗传学 基因 物理化学 催化作用 光电子学 量子力学 免疫学
热门帖子
关注 科研通微信公众号,转发送积分 3916640
求助须知:如何正确求助?哪些是违规求助? 3462008
关于积分的说明 10920551
捐赠科研通 3189495
什么是DOI,文献DOI怎么找? 1763013
邀请新用户注册赠送积分活动 853205
科研通“疑难数据库(出版商)”最低求助积分说明 793747