已入深夜,您辛苦了!由于当前在线用户较少,发布求助请尽量完整的填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!祝你早点完成任务,早点休息,好梦!

Language-Guided Visual Aggregation Network for Video Question Answering

计算机科学 答疑 合并(版本控制) 人工智能 杠杆(统计) 推论 判决 帧(网络) 特征(语言学) 自然语言处理 情报检索 电信 语言学 哲学
作者
Liang Xiao,Di Wang,Bo Wan,Quan Wang,Lingling An,Lihuo He
标识
DOI:10.1145/3581783.3613909
摘要

Video Question Answering (VideoQA) aims to comprehend intricate relationships, actions, and events within video content, as well as the inherent links between objects and scenes, to answer text-based questions accurately. Transferring knowledge from the cross-modal pre-trained model CLIP is a natural approach, but its dual-tower structure hinders fine-grained modality interaction, posing challenges for direct application to VideoQA tasks. To address this issue, we introduce a Language-Guided Visual Aggregation (LGVA) network. It employs CLIP as an effective feature extractor to obtain language-aligned visual features with different granularities and avoids resource-intensive video pre-training. The LGVA network progressively aggregates visual information in a bottom-up manner, focusing on both regional and temporal levels, and ultimately facilitating accurate answer prediction. More specifically, it employs local cross-attention to combine pre-extracted question tokens and region embeddings, pinpointing the object of interest in the question. Then, graph attention is utilized to aggregate regions at the frame level and integrate additional captions for enhanced detail. Following this, global cross-attention is used to merge sentence and frame-level embeddings, identifying the video segment relevant to the question. Ultimately, contrastive learning is applied to optimize the similarities between aggregated visual and answer embeddings, unifying upstream and downstream tasks. Our method conserves resources by avoiding large-scale video pre-training and simultaneously demonstrates commendable performance on the NExT-QA, MSVD-QA, MSRVTT-QA, TGIF-QA, and ActivityNet-QA datasets, even outperforming some end-to-end trained models. Our code is available at https://github.com/ecoxial2007/LGVA_VideoQA.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
刚刚
3秒前
6秒前
8秒前
施含莲发布了新的文献求助30
8秒前
沉静一刀完成签到 ,获得积分10
11秒前
YH发布了新的文献求助10
12秒前
张可完成签到 ,获得积分10
15秒前
qrj发布了新的文献求助10
16秒前
xslw完成签到 ,获得积分10
21秒前
YH完成签到,获得积分10
23秒前
daishuheng完成签到 ,获得积分10
23秒前
zzz完成签到,获得积分10
26秒前
ding应助cc采纳,获得10
26秒前
细心的如天完成签到 ,获得积分10
26秒前
stay完成签到 ,获得积分10
26秒前
遥感小虫发布了新的文献求助10
27秒前
欧欧欧欧欧欧阳琴完成签到 ,获得积分10
30秒前
小研发布了新的文献求助10
35秒前
遥感小虫完成签到,获得积分20
37秒前
GGbong完成签到 ,获得积分10
39秒前
轨迹完成签到,获得积分10
39秒前
40秒前
42秒前
45秒前
不能随便完成签到,获得积分10
46秒前
49秒前
49秒前
共享精神应助rorrons采纳,获得10
52秒前
自然的南露完成签到,获得积分10
54秒前
酒醉的蝴蝶完成签到 ,获得积分10
56秒前
炸胡娃娃完成签到 ,获得积分10
58秒前
施含莲完成签到 ,获得积分10
59秒前
小研完成签到,获得积分10
1分钟前
lihaoyu完成签到,获得积分10
1分钟前
王蕊完成签到 ,获得积分10
1分钟前
cctv18应助August采纳,获得10
1分钟前
Trailblazer完成签到,获得积分10
1分钟前
不吃橘子完成签到 ,获得积分10
1分钟前
退伍的三毛完成签到 ,获得积分10
1分钟前
高分求助中
Formgebungs- und Stabilisierungsparameter für das Konstruktionsverfahren der FiDU-Freien Innendruckumformung von Blech 1000
The Illustrated History of Gymnastics 800
The Bourse of Babylon : market quotations in the astronomical diaries of Babylonia 680
Division and square root. Digit-recurrence algorithms and implementations 500
Hypofractionated Stereotactic Radiosurgery for Brain Metastases 390
Elgar Encyclopedia of Consumer Behavior 300
機能營養學前瞻(3 Ed.) 300
热门求助领域 (近24小时)
化学 材料科学 医学 生物 有机化学 工程类 生物化学 纳米技术 物理 内科学 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 电极 光电子学 量子力学
热门帖子
关注 科研通微信公众号,转发送积分 2509336
求助须知:如何正确求助?哪些是违规求助? 2159766
关于积分的说明 5529580
捐赠科研通 1879990
什么是DOI,文献DOI怎么找? 935522
版权声明 564161
科研通“疑难数据库(出版商)”最低求助积分说明 499489