ImageBind One Embedding Space to Bind Them All

嵌入 空格(标点符号) 计算机科学 人工智能 操作系统
作者
Rohit Girdhar,Alaaeldin El-Nouby,Zhuang Liu,Mannat Singh,Kalyan Vasudev Alwala,Armand Joulin,Ishan Misra
标识
DOI:10.1109/cvpr52729.2023.01457
摘要

We present ImageBind, an approach to learn a joint embedding across six different modalities - images, text, audio, depth, thermal, and IMU data. We show that all combinations of paired data are not necessary to train such a joint embedding, and only image-paired data is sufficient to bind the modalities together. ImageBind can leverage recent large scale vision-language models, and extends their zero-shot capabilities to new modalities just by using their natural pairing with images. It enables novel emergent applications 'out-of-the-box' including cross-modal retrieval, composing modalities with arithmetic, cross-modal detection and generation. The emergent capabilities improve with the strength of the image encoder and we set a new state-of-the-art on emergent zero-shot recognition tasks across modalities, outperforming specialist supervised models. Finally, we show strong few-shot recognition results outperforming prior work, and that ImageBind serves as a new way to evaluate vision models for visual and non-visual tasks.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
1秒前
2秒前
CodeCraft应助wangpeijia采纳,获得10
2秒前
吃饭饭完成签到,获得积分10
3秒前
科研通AI5应助suresure采纳,获得10
3秒前
斑点完成签到,获得积分10
4秒前
timer完成签到,获得积分10
4秒前
5秒前
田様应助Gorone采纳,获得10
5秒前
w(゚Д゚)w完成签到,获得积分10
5秒前
5秒前
Dandraine发布了新的文献求助10
6秒前
终陌发布了新的文献求助10
6秒前
GCY发布了新的文献求助10
6秒前
7秒前
满意茹嫣完成签到 ,获得积分10
7秒前
8秒前
古藤完成签到 ,获得积分10
8秒前
8秒前
9秒前
CipherSage应助alrist采纳,获得10
9秒前
思源应助666采纳,获得10
9秒前
10秒前
10秒前
10秒前
10秒前
Ice发布了新的文献求助10
11秒前
小Q发布了新的文献求助10
12秒前
12秒前
充电宝应助wangpeijia采纳,获得10
12秒前
12发布了新的文献求助10
13秒前
DikL完成签到,获得积分10
13秒前
lan兰给lan兰的求助进行了留言
13秒前
传奇3应助CY采纳,获得10
14秒前
普普完成签到 ,获得积分10
14秒前
15秒前
15秒前
科研通AI5应助龙泪个萌乃采纳,获得10
16秒前
在水一方应助小李子采纳,获得10
17秒前
多巴胺完成签到 ,获得积分10
17秒前
高分求助中
Les Mantodea de Guyane Insecta, Polyneoptera 2500
Mobilization, center-periphery structures and nation-building 600
Introduction to Strong Mixing Conditions Volumes 1-3 500
Technologies supporting mass customization of apparel: A pilot project 450
China—Art—Modernity: A Critical Introduction to Chinese Visual Expression from the Beginning of the Twentieth Century to the Present Day 430
Multichannel rotary joints-How they work 400
Tip60 complex regulates eggshell formation and oviposition in the white-backed planthopper, providing effective targets for pest control 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3794812
求助须知:如何正确求助?哪些是违规求助? 3339698
关于积分的说明 10296934
捐赠科研通 3056378
什么是DOI,文献DOI怎么找? 1676972
邀请新用户注册赠送积分活动 804994
科研通“疑难数据库(出版商)”最低求助积分说明 762286