Bootstrapping Interactive Image–Text Alignment for Remote Sensing Image Captioning

计算机科学 隐藏字幕 人工智能 冗余(工程) 遥感 编码器 计算机视觉 变压器 特征提取 图像(数学) 地质学 物理 量子力学 电压 操作系统
作者
Cong Yang,Zuchao Li,Lefei Zhang
出处
期刊:IEEE Transactions on Geoscience and Remote Sensing [Institute of Electrical and Electronics Engineers]
卷期号:62: 1-12 被引量:16
标识
DOI:10.1109/tgrs.2024.3359316
摘要

Recently, remote sensing image captioning has gained significant attention in the remote sensing community. Due to the significant differences in spatial resolution of remote sensing images, existing methods in this field have predominantly concentrated on the fine-grained extraction of remote sensing image features, but they cannot effectively handle the semantic consistency between visual features and textual features. To efficiently align the image-text, we propose a novel two-stage vision-language pre-training-based approach to bootstrap interactive image-text alignment for remote sensing image captioning, called BITA, which relies on the design of a lightweight interactive Fourier Transformer to better align remote sensing image-text features. The Fourier layer in the interactive Fourier Transformer is capable of extracting multi-scale features of remote sensing images in the frequency domain, thereby reducing the redundancy of remote sensing visual features. Specifically, the first stage involves preliminary alignment through image-text contrastive learning, which aligns the learned multi-scale remote sensing features from the interactive Fourier Transformer with textual features. In the second stage, the interactive Fourier Transformer connects the frozen image encoder with a large language model. Then, prefix causal language modeling is utilized to guide the text generation process using visual features. Ultimately, across the UCM-caption, RSICD, and NWPU-caption datasets, the experimental results clearly demonstrate that BITA outperforms other advanced comparative approaches. The code is available at https://github.com/yangcong356/BITA.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
枯木逢春发布了新的文献求助10
1秒前
1秒前
123发布了新的文献求助10
3秒前
王也完成签到 ,获得积分10
3秒前
3秒前
小凯同学完成签到,获得积分10
5秒前
FashionBoy应助郑chen采纳,获得10
5秒前
111发布了新的文献求助10
7秒前
可爱的胖丁完成签到,获得积分10
7秒前
zxcvbnm完成签到 ,获得积分10
7秒前
nieinei完成签到 ,获得积分10
8秒前
科研通AI5应助chezi采纳,获得10
9秒前
underway发布了新的文献求助10
10秒前
SnaiLinsist发布了新的文献求助10
10秒前
土豪的康发布了新的文献求助10
10秒前
12秒前
LiXingchen完成签到,获得积分10
12秒前
grzzz完成签到,获得积分10
12秒前
13秒前
Monika发布了新的文献求助10
15秒前
zachary完成签到,获得积分20
17秒前
18秒前
靳佩发布了新的文献求助10
18秒前
折木浮华完成签到,获得积分10
19秒前
郑chen发布了新的文献求助10
19秒前
阿敏完成签到,获得积分10
20秒前
土豪的康完成签到,获得积分10
20秒前
逗逗发布了新的文献求助10
22秒前
小俊花发布了新的文献求助10
22秒前
25秒前
25秒前
27秒前
郑chen完成签到,获得积分20
28秒前
风汐5423完成签到 ,获得积分10
28秒前
阿敏发布了新的文献求助10
29秒前
小俊花完成签到,获得积分10
31秒前
旋转木马9个完成签到 ,获得积分10
31秒前
32秒前
33秒前
fqpang完成签到 ,获得积分10
33秒前
高分求助中
Java: A Beginner's Guide, 10th Edition 5000
Applied Survey Data Analysis (第三版, 2025) 800
Narcissistic Personality Disorder 700
The Martian climate revisited: atmosphere and environment of a desert planet 500
Nucleophilic substitution in azasydnone-modified dinitroanisoles 500
Plasmonics 400
建国初期十七年翻译活动的实证研究. 建国初期十七年翻译活动的实证研究 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3848654
求助须知:如何正确求助?哪些是违规求助? 3391461
关于积分的说明 10567731
捐赠科研通 3112070
什么是DOI,文献DOI怎么找? 1715050
邀请新用户注册赠送积分活动 825541
科研通“疑难数据库(出版商)”最低求助积分说明 775647