已入深夜,您辛苦了!由于当前在线用户较少,发布求助请尽量完整的填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!祝你早点完成任务,早点休息,好梦!

Vision-Language Transformer for Interpretable Pathology Visual Question Answering

可解释性 计算机科学 答疑 变压器 人工智能 自然语言处理 编码器 稳健性(进化) 语言模型 机器学习 情报检索 物理 化学 生物化学 电压 操作系统 量子力学 基因
作者
Usman Naseem,Matloob Khushi,Jin‐Man Kim
出处
期刊:IEEE Journal of Biomedical and Health Informatics [Institute of Electrical and Electronics Engineers]
卷期号:27 (4): 1681-1690 被引量:14
标识
DOI:10.1109/jbhi.2022.3163751
摘要

Pathology visual question answering (PathVQA) attempts to answer a medical question posed by pathology images. Despite its great potential in healthcare, it is not widely adopted because it requires interactions on both the image (vision) and question (language) to generate an answer. Existing methods focused on treating vision and language features independently, which were unable to capture the high and low-level interactions that are required for VQA. Further, these methods failed to offer capabilities to interpret the retrieved answers, which are obscure to humans where the models’ interpretability to justify the retrieved answers has remained largely unexplored. Motivated by these limitations, we introduce a vision-language transformer that embeds vision (images) and language (questions) features for an interpretable PathVQA. We present an interpretable tra nsformer-based P ath- VQA (TraP-VQA), where we embed transformers’ encoder layers with vision and language features extracted using pre-trained CNN and domain-specific language model (LM), respectively. A decoder layer is then embedded to upsample the encoded features for the final prediction for PathVQA. Our experiments showed that our TraP-VQA outperformed the state-of-the-art comparative methods with public PathVQA dataset. Our experiments validated the robustness of our model on another medical VQA dataset, and the ablation study demonstrated the capability of our integrated transformer-based vision-language model for PathVQA. Finally, we present the visualization results of both text and images, which explain the reason for a retrieved answer in PathVQA.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
我要吃挂面完成签到,获得积分10
3秒前
李健应助信徒采纳,获得10
5秒前
5秒前
7秒前
半夏完成签到 ,获得积分10
8秒前
stellawood关注了科研通微信公众号
9秒前
lisazlele完成签到,获得积分10
9秒前
充电宝应助贝多芬的小贝采纳,获得10
10秒前
Yolo完成签到 ,获得积分10
11秒前
cl完成签到,获得积分10
12秒前
苏苏发布了新的文献求助10
12秒前
完美世界应助科研通管家采纳,获得10
12秒前
上官若男应助科研通管家采纳,获得10
12秒前
12秒前
西瓜大拿发布了新的文献求助10
12秒前
18秒前
独特的娩完成签到 ,获得积分10
22秒前
贝多芬的小贝完成签到,获得积分10
24秒前
25秒前
30秒前
Z小姐完成签到 ,获得积分10
33秒前
33秒前
tmr发布了新的文献求助10
37秒前
YY发布了新的文献求助10
43秒前
47秒前
50秒前
Rollei发布了新的文献求助10
51秒前
54秒前
54秒前
瑜倪完成签到 ,获得积分10
57秒前
情怀应助芳华如梦采纳,获得10
59秒前
liang发布了新的文献求助10
1分钟前
fire未来式应助Rollei采纳,获得50
1分钟前
fire未来式应助Rollei采纳,获得50
1分钟前
天才小能喵应助Rollei采纳,获得50
1分钟前
Alone离殇完成签到 ,获得积分10
1分钟前
CipherSage应助Esty采纳,获得10
1分钟前
张包子完成签到 ,获得积分10
1分钟前
小宇dip完成签到,获得积分20
1分钟前
陈美丽完成签到,获得积分10
1分钟前
高分求助中
【本贴是提醒信息,请勿应助】请在求助之前详细阅读求助说明!!!! 20000
One Man Talking: Selected Essays of Shao Xunmei, 1929–1939 1000
The Three Stars Each: The Astrolabes and Related Texts 900
Yuwu Song, Biographical Dictionary of the People's Republic of China 800
Multifunctional Agriculture, A New Paradigm for European Agriculture and Rural Development 600
Challenges, Strategies, and Resiliency in Disaster and Risk Management 500
Bernd Ziesemer - Maos deutscher Topagent: Wie China die Bundesrepublik eroberte 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 有机化学 工程类 生物化学 纳米技术 物理 内科学 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 电极 光电子学 量子力学
热门帖子
关注 科研通微信公众号,转发送积分 2483027
求助须知:如何正确求助?哪些是违规求助? 2145244
关于积分的说明 5472735
捐赠科研通 1867507
什么是DOI,文献DOI怎么找? 928307
版权声明 563090
科研通“疑难数据库(出版商)”最低求助积分说明 496658