清晨好,您是今天最早来到科研通的研友!由于当前在线用户较少,发布求助请尽量完整的填写文献信息,科研通机器人24小时在线,伴您科研之路漫漫前行!

Question-Aware Global-Local Video Understanding Network for Audio-Visual Question Answering

计算机科学 答疑 模式 模态(人机交互) 任务(项目管理) 透视图(图形) 视听 特征(语言学) 特征提取 人工智能 情报检索 自然语言处理 多媒体 语言学 社会科学 哲学 管理 社会学 经济
作者
Zailong Chen,Lei Wang,Peng Wang,Peng Gao
出处
期刊:IEEE Transactions on Circuits and Systems for Video Technology [Institute of Electrical and Electronics Engineers]
卷期号:: 1-1
标识
DOI:10.1109/tcsvt.2023.3318220
摘要

As a newly emerging task, audio-visual question answering (AVQA) has attracted research attention. Compared with traditional single-modality (e.g., audio or visual) QA tasks, it poses new challenges due to the higher complexity of feature extraction and fusion brought by the multimodal inputs. First, AVQA requires more comprehensive understanding of the scene which involves both audio and visual information; Second, in the presence of more information, feature extraction has to be better connected with a given question; Third, features from different modalities need to be sufficiently correlated and fused. To address this situation, this work proposes a novel framework for multimodal question answering task. It characterises an audiovisual scene at both global and local levels, and within each level, the features from different modalities are well fused. Furthermore, the given question is utilised to guide not only the feature extraction at the local level but also the final fusion of global and local features to predict the answer. Our framework provides a new perspective for audio-visual scene understanding through focusing on both general and specific representations as well as aggregating multimodalities by prioritizing question-related information. As experimentally demonstrated, our method significantly improves the existing audio-visual question answering performance, with the averaged absolute gain of 3.3% and 3.1% on MUSIC-AVQA and AVQA datasets, respectively. Moreover, the ablation study verifies the necessity and effectiveness of our design. Our code will be publicly released.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
nsk810431231完成签到 ,获得积分10
3秒前
合适醉蝶完成签到 ,获得积分10
19秒前
诚心闭月完成签到,获得积分10
20秒前
DDX完成签到 ,获得积分10
29秒前
33秒前
榴莲爱美丽完成签到,获得积分10
37秒前
nmm完成签到 ,获得积分10
37秒前
lenny发布了新的文献求助10
39秒前
大荷子她爸完成签到 ,获得积分10
39秒前
valant06完成签到 ,获得积分10
57秒前
JamesPei应助lenny采纳,获得10
58秒前
自然的含蕾完成签到 ,获得积分10
1分钟前
1分钟前
牛奶煮通通完成签到 ,获得积分10
1分钟前
巫巫巫巫巫完成签到 ,获得积分10
1分钟前
XQL完成签到 ,获得积分10
2分钟前
和尘同光完成签到 ,获得积分10
2分钟前
胡图图完成签到 ,获得积分10
2分钟前
沐雨疏桐完成签到 ,获得积分10
2分钟前
爱心完成签到 ,获得积分10
2分钟前
阿福完成签到 ,获得积分10
2分钟前
happyccch完成签到 ,获得积分10
2分钟前
路路完成签到 ,获得积分10
2分钟前
3分钟前
xixi很困完成签到 ,获得积分10
3分钟前
neuroman完成签到 ,获得积分10
3分钟前
文欣完成签到 ,获得积分10
3分钟前
科目三应助zard采纳,获得500
3分钟前
Aaron完成签到 ,获得积分10
4分钟前
小Q完成签到 ,获得积分10
4分钟前
shiminyuan完成签到,获得积分10
4分钟前
yshj完成签到 ,获得积分10
4分钟前
4分钟前
ygl0217完成签到,获得积分10
4分钟前
阿泽完成签到,获得积分10
4分钟前
ygl0217发布了新的文献求助10
4分钟前
5分钟前
Skywings完成签到,获得积分10
5分钟前
dream2000完成签到 ,获得积分10
5分钟前
5分钟前
高分求助中
Un calendrier babylonien des travaux, des signes et des mois: Séries iqqur îpuš 1036
Heterocyclic Stilbene and Bibenzyl Derivatives in Liverworts: Distribution, Structures, Total Synthesis and Biological Activity 500
重庆市新能源汽车产业大数据招商指南(两链两图两池两库两平台两清单两报告) 400
Division and square root. Digit-recurrence algorithms and implementations 400
行動データの計算論モデリング 強化学習モデルを例として 400
Offline version of the Proceedings of 15th EWTEC 2023, Bilbao 400
Social justice in EAP and ELT contexts 350
热门求助领域 (近24小时)
化学 材料科学 医学 生物 有机化学 工程类 生物化学 纳米技术 物理 内科学 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 电极 光电子学 量子力学
热门帖子
关注 科研通微信公众号,转发送积分 2541327
求助须知:如何正确求助?哪些是违规求助? 2174256
关于积分的说明 5593723
捐赠科研通 1894785
什么是DOI,文献DOI怎么找? 945066
版权声明 565254
科研通“疑难数据库(出版商)”最低求助积分说明 503211