亲爱的研友该休息了!由于当前在线用户较少,发布求助请尽量完整的填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!身体可是革命的本钱,早点休息,好梦!

AMAM: An Attention-based Multimodal Alignment Model for Medical Visual Question Answering

计算机科学 答疑 任务(项目管理) 人工智能 光学(聚焦) 情报检索 编码(集合论) 图像(数学) 自然语言处理 词(群论) 质量(理念) 树(集合论) 机器学习 语言学 数学分析 哲学 物理 数学 管理 集合(抽象数据类型) 认识论 光学 经济 程序设计语言
作者
Haiwei Pan,Shuning He,Kejia Zhang,Bo Qü,Chunling Chen,Kun Shi
出处
期刊:Knowledge Based Systems [Elsevier]
卷期号:255: 109763-109763 被引量:13
标识
DOI:10.1016/j.knosys.2022.109763
摘要

Medical Visual Question Answering (VQA) is a multimodal task to answer clinical questions about medical images. Existing methods have achieved good performance, but most medical VQA models focus on visual contents while ignoring the influence of textual contents. To address this issue, this paper proposes an Attention-based Multimodal Alignment Model (AMAM) for medical VQA, aiming for an alignment of text-based and image-based attention to enrich the textual features. First, we develop an Image-to-Question (I2Q) attention and a Word-to-Question (W2Q) attention to model the relations of both visual and textual contents to the question. Second, we design a composite loss composed of a classification loss and an Image–Question Complementary (IQC) loss. The IQC loss concentrates on aligning the importance of the questions learned from visual and textual features to emphasize meaningful words in questions and improve the quality of predicted answers. Benefiting from the attention mechanisms and the composite loss, AMAM obtains rich semantic textual information and accurate answers. Finally, due to some data errors and missing labels on the VQA-RAD dataset, we further constructed an enhanced dataset, VQA-RADPh, to raise data quality. Experimental results on public datasets show better performance of AMAM compared with the advanced methods. Our source code is available at: https://github.com/shuning-ai/AMAM/tree/master.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
东方天奇完成签到 ,获得积分10
3秒前
xiw完成签到,获得积分10
4秒前
5秒前
简单的沛蓝完成签到 ,获得积分10
10秒前
陶醉觅夏发布了新的文献求助10
11秒前
orixero应助hy采纳,获得10
25秒前
NexusExplorer应助科研通管家采纳,获得20
30秒前
汉堡包应助科研通管家采纳,获得10
30秒前
30秒前
lxyonline发布了新的文献求助10
32秒前
在水一方应助napnap采纳,获得10
34秒前
38秒前
43秒前
44秒前
hy发布了新的文献求助10
49秒前
53秒前
1分钟前
1分钟前
雪梅完成签到 ,获得积分10
1分钟前
1分钟前
ajiaxi发布了新的文献求助10
1分钟前
karina完成签到 ,获得积分10
1分钟前
1分钟前
jjdeng发布了新的文献求助30
1分钟前
pigpig发布了新的文献求助10
1分钟前
彭于晏应助yyyjx采纳,获得10
1分钟前
1分钟前
1分钟前
jjdeng完成签到,获得积分20
1分钟前
WL发布了新的文献求助10
1分钟前
一只小锦鲤完成签到,获得积分10
1分钟前
科研通AI2S应助陶醉觅夏采纳,获得10
2分钟前
2分钟前
2分钟前
2分钟前
ych62524发布了新的文献求助10
2分钟前
难过大神发布了新的文献求助10
2分钟前
pigpig完成签到,获得积分10
2分钟前
lxyonline发布了新的文献求助10
2分钟前
爆米花应助金艺声采纳,获得10
2分钟前
高分求助中
Sustainable Land Management: Strategies to Cope with the Marginalisation of Agriculture 1000
Corrosion and Oxygen Control 600
Yaws' Handbook of Antoine coefficients for vapor pressure 500
Python Programming for Linguistics and Digital Humanities: Applications for Text-Focused Fields 500
Love and Friendship in the Western Tradition: From Plato to Postmodernity 500
行動データの計算論モデリング 強化学習モデルを例として 500
Johann Gottlieb Fichte: Die späten wissenschaftlichen Vorlesungen / IV,1: ›Transzendentale Logik I (1812)‹ 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 有机化学 工程类 生物化学 纳米技术 物理 内科学 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 电极 光电子学 量子力学
热门帖子
关注 科研通微信公众号,转发送积分 2556525
求助须知:如何正确求助?哪些是违规求助? 2180311
关于积分的说明 5623585
捐赠科研通 1901665
什么是DOI,文献DOI怎么找? 949942
版权声明 565607
科研通“疑难数据库(出版商)”最低求助积分说明 504846