Video-Context Aligned Transformer for Video Question Answering

变压器 答疑 计算机科学 多媒体 情报检索 工程类 电气工程 电压
作者
Linlin Zong,Jiahui Wan,Xianchao Zhang,Xinyue Liu,Wenxin Liang,Bo Xu
出处
期刊:Proceedings of the ... AAAI Conference on Artificial Intelligence [Association for the Advancement of Artificial Intelligence (AAAI)]
卷期号:38 (17): 19795-19803 被引量:1
标识
DOI:10.1609/aaai.v38i17.29954
摘要

Video question answering involves understanding video content to generate accurate answers to questions. Recent studies have successfully modeled video features and achieved diverse multimodal interaction, yielding impressive outcomes. However, they have overlooked the fact that the video contains richer instances and events beyond the scope of the stated question. Extremely imbalanced alignment of information from both sides leads to significant instability in reasoning. To address this concern, we propose the Video-Context Aligned Transformer (V-CAT), which leverages the context to achieve semantic and content alignment between video and question. Specifically, the video and text are encoded into a shared semantic space initially. We apply contrastive learning to global video token and context token to enhance the semantic alignment. Then, the pooled context feature is utilized to obtain corresponding visual content. Finally, the answer is decoded by integrating the refined video and question features. We evaluate the effectiveness of V-CAT on MSVD-QA and MSRVTT-QA dataset, both achieving state-of-the-art performance. Extended experiments further analyze and demonstrate the effectiveness of each proposed module.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
风中忆枫完成签到,获得积分10
刚刚
1秒前
美丽乾发布了新的文献求助10
1秒前
欣喜机器猫完成签到,获得积分10
1秒前
CipherSage应助loner采纳,获得10
2秒前
orixero应助EthanChan采纳,获得10
2秒前
从容松弛完成签到 ,获得积分10
2秒前
2秒前
2秒前
长江完成签到 ,获得积分10
4秒前
风中忆枫发布了新的文献求助10
4秒前
西西发布了新的文献求助10
4秒前
ccc完成签到 ,获得积分10
4秒前
在水一方应助张可欣采纳,获得10
4秒前
李爱国应助电致阿光采纳,获得10
4秒前
耍酷的小海豚完成签到 ,获得积分10
5秒前
Fan完成签到,获得积分10
6秒前
Lucas应助洪武采纳,获得10
6秒前
7秒前
mj01发布了新的文献求助10
7秒前
8秒前
8秒前
超级砖家完成签到,获得积分10
8秒前
tuantuantuan完成签到,获得积分10
9秒前
Herman完成签到 ,获得积分10
9秒前
CipherSage应助旺旺采纳,获得10
9秒前
lcsolar完成签到,获得积分10
9秒前
上官若男应助灵巧一笑采纳,获得10
9秒前
9秒前
wanci应助姜且采纳,获得10
9秒前
每每反完成签到,获得积分10
10秒前
11秒前
小鱼完成签到,获得积分10
11秒前
司徒文青应助重要的扬采纳,获得30
11秒前
孙鑫发布了新的文献求助10
12秒前
南漂完成签到,获得积分10
13秒前
JiaJiaQing完成签到,获得积分10
13秒前
ww发布了新的文献求助10
13秒前
14秒前
15秒前
高分求助中
Java: A Beginner's Guide, 10th Edition 5000
Applied Survey Data Analysis (第三版, 2025) 800
Narcissistic Personality Disorder 700
Research Handbook on Multiculturalism 500
The Martian climate revisited: atmosphere and environment of a desert planet 500
Plasmonics 400
建国初期十七年翻译活动的实证研究. 建国初期十七年翻译活动的实证研究 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3848343
求助须知:如何正确求助?哪些是违规求助? 3391055
关于积分的说明 10565200
捐赠科研通 3111522
什么是DOI,文献DOI怎么找? 1714830
邀请新用户注册赠送积分活动 825479
科研通“疑难数据库(出版商)”最低求助积分说明 775556