A System of Multimodal Image‐Text Retrieval Based on Pre‐Trained Models Fusion

计算机科学 一般化 构造(python库) 人工智能 背景(考古学) 任务(项目管理) 特征(语言学) 图像(数学) 模式识别(心理学) 机器学习 图像检索 数据挖掘 语言学 哲学 数学分析 古生物学 数学 管理 经济 生物 程序设计语言
作者
Qiang Li,Feng Zhao,Linlin Zhao,Liu Mao-kai,Yübo Wang,Shuo Zhang,Yuanyuan Guo,Shibo Wang,Weigang Wang
出处
期刊:Concurrency and Computation: Practice and Experience [Wiley]
标识
DOI:10.1002/cpe.8345
摘要

ABSTRACT The algorithm for multimodal image‐text retrieval aims to overcome the differences between visual and textual data, enabling efficient and accurate recognition between images and text. Since manually labeled data are usually expensive, many researchers attempted to use low‐quality multimodal data obtained through network batch operations. This presents a challenge for the model's generalization performance and prediction accuracy. To address this issue, we construct a system of multimodal image‐text retrieval based on the fusion of pre‐trained models. Firstly, we enhance the diversity of the original data using the MixGen algorithm to improve the model's generalization performance. Next, we employ Chinese‐CLIP as the most suitable foundational model based on comparative experiments among three different models. Finally, we construct a comprehensive ensemble model with three base Chinese‐CLIP models based on the specific characteristics of the tasks, which includes a prediction‐based fusion model for the text‐to‐image task and a feature‐based fusion model for the image‐to‐text task. Extensive experiments show that our model outperforms state‐of‐the‐art single foundation models in generalization, especially with low‐quality image‐text pairs and small datasets in the Chinese context.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
大俊俊完成签到 ,获得积分10
1秒前
ECHO完成签到,获得积分10
2秒前
小绵羊发布了新的文献求助10
4秒前
8秒前
gky完成签到,获得积分10
10秒前
笨笨梦松完成签到,获得积分10
16秒前
胡杨柳完成签到,获得积分10
17秒前
Sofia完成签到 ,获得积分0
17秒前
100完成签到,获得积分10
21秒前
兰先生完成签到,获得积分20
25秒前
26秒前
27秒前
29秒前
Oracle应助momo采纳,获得30
30秒前
合适的寄灵完成签到 ,获得积分10
31秒前
小绵羊发布了新的文献求助10
31秒前
Maisie完成签到 ,获得积分10
33秒前
可夫司机完成签到 ,获得积分10
33秒前
nav发布了新的文献求助10
34秒前
夜捕白日梦完成签到,获得积分10
38秒前
犹豫的忆枫完成签到,获得积分10
39秒前
nan完成签到,获得积分10
41秒前
冰冰完成签到 ,获得积分10
41秒前
豪豪完成签到,获得积分10
42秒前
zjkzh完成签到 ,获得积分10
43秒前
skysleeper完成签到,获得积分10
43秒前
song完成签到 ,获得积分10
44秒前
科研通AI5应助cs采纳,获得10
45秒前
小龙发布了新的文献求助10
49秒前
归尘完成签到,获得积分10
51秒前
清风完成签到 ,获得积分10
52秒前
虞无声发布了新的文献求助50
52秒前
53秒前
Lyue完成签到,获得积分10
57秒前
cs发布了新的文献求助10
58秒前
追寻凌晴完成签到,获得积分10
1分钟前
风中琦完成签到 ,获得积分10
1分钟前
十七完成签到 ,获得积分10
1分钟前
跳跃的冷卉完成签到 ,获得积分10
1分钟前
叼面包的数学狗完成签到 ,获得积分10
1分钟前
高分求助中
【此为提示信息,请勿应助】请按要求发布求助,避免被关 20000
Continuum Thermodynamics and Material Modelling 2000
Encyclopedia of Geology (2nd Edition) 2000
105th Edition CRC Handbook of Chemistry and Physics 1600
Maneuvering of a Damaged Navy Combatant 650
Периодизация спортивной тренировки. Общая теория и её практическое применение 310
Mixing the elements of mass customisation 300
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3779247
求助须知:如何正确求助?哪些是违规求助? 3324813
关于积分的说明 10220097
捐赠科研通 3039971
什么是DOI,文献DOI怎么找? 1668528
邀请新用户注册赠送积分活动 798717
科研通“疑难数据库(出版商)”最低求助积分说明 758503