Learning Transferable Visual Models From Natural Language Supervision

计算机科学 人工智能 概括性 学习迁移 任务(项目管理) 机器学习 对象(语法) 可扩展性 自然语言 自然语言处理 集合(抽象数据类型) 可用性 人机交互 数据库 程序设计语言 心理学 管理 经济 心理治疗师
作者
Alec Radford,Jong Wook Kim,Chris Hallacy,Aditya Ramesh,Gabriel Goh,Sandhini Agarwal,Girish Sastry,Amanda Askell,Pamela Mishkin,Jack Clark,Gretchen Krueger,Ilya Sutskever
出处
期刊:Cornell University - arXiv 被引量:3954
标识
DOI:10.48550/arxiv.2103.00020
摘要

State-of-the-art computer vision systems are trained to predict a fixed set of predetermined object categories. This restricted form of supervision limits their generality and usability since additional labeled data is needed to specify any other visual concept. Learning directly from raw text about images is a promising alternative which leverages a much broader source of supervision. We demonstrate that the simple pre-training task of predicting which caption goes with which image is an efficient and scalable way to learn SOTA image representations from scratch on a dataset of 400 million (image, text) pairs collected from the internet. After pre-training, natural language is used to reference learned visual concepts (or describe new ones) enabling zero-shot transfer of the model to downstream tasks. We study the performance of this approach by benchmarking on over 30 different existing computer vision datasets, spanning tasks such as OCR, action recognition in videos, geo-localization, and many types of fine-grained object classification. The model transfers non-trivially to most tasks and is often competitive with a fully supervised baseline without the need for any dataset specific training. For instance, we match the accuracy of the original ResNet-50 on ImageNet zero-shot without needing to use any of the 1.28 million training examples it was trained on. We release our code and pre-trained model weights at https://github.com/OpenAI/CLIP.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
研友_VZG7GZ应助呼吸小研狗采纳,获得10
刚刚
1秒前
2秒前
啦啦啦发布了新的文献求助10
2秒前
CHO完成签到,获得积分10
3秒前
4秒前
6秒前
6秒前
白瓜完成签到 ,获得积分10
6秒前
squeak发布了新的文献求助10
8秒前
从容山兰发布了新的文献求助10
8秒前
10秒前
12秒前
淼淼1完成签到,获得积分10
14秒前
16秒前
明理的凌旋完成签到,获得积分20
16秒前
17秒前
19秒前
chcmuer发布了新的文献求助10
20秒前
一只超发布了新的文献求助10
21秒前
kyt驳回了ding应助
21秒前
yiyi发布了新的文献求助10
21秒前
淼淼1发布了新的文献求助50
24秒前
orixero应助ZHC采纳,获得10
27秒前
31秒前
34秒前
一只超完成签到 ,获得积分10
35秒前
张宏宇发布了新的文献求助10
36秒前
CipherSage应助NatureLee采纳,获得10
36秒前
37秒前
40秒前
wstkkkkykk发布了新的文献求助10
40秒前
41秒前
ZS0901发布了新的文献求助10
42秒前
ZHC发布了新的文献求助10
44秒前
CodeCraft应助迅速的八宝粥采纳,获得10
45秒前
科研通AI5应助kun采纳,获得10
48秒前
qiao应助张宏宇采纳,获得10
49秒前
qiao应助张宏宇采纳,获得10
49秒前
小飞飞应助张宏宇采纳,获得20
49秒前
高分求助中
【此为提示信息,请勿应助】请按要求发布求助,避免被关 20000
Периодизация спортивной тренировки. Общая теория и её практическое применение 310
Mixing the elements of mass customisation 300
the MD Anderson Surgical Oncology Manual, Seventh Edition 300
Nucleophilic substitution in azasydnone-modified dinitroanisoles 300
Platinum-group elements : mineralogy, geology, recovery 260
Geopora asiatica sp. nov. from Pakistan 230
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3780560
求助须知:如何正确求助?哪些是违规求助? 3326076
关于积分的说明 10225366
捐赠科研通 3041143
什么是DOI,文献DOI怎么找? 1669215
邀请新用户注册赠送积分活动 799024
科研通“疑难数据库(出版商)”最低求助积分说明 758669