发布文献求助

CLIPCAM: A Simple Baseline For Zero-Shot Text-Guided Object And Action Localization

计算机科学对象（语法）人工智能基线（sea）判决图像（数学）简单（哲学）语义学（计算机科学）动作（物理）发电机（电路理论）班级（哲学）钥匙（锁）零（语言学）模式识别（心理学）弹丸自然语言处理机器学习计算机视觉有机化学化学程序设计语言功率（物理）哲学地质学物理认识论海洋学量子力学语言学计算机安全

作者

Hsuan-An Hsia,Che-Hsien Lin,Bo-Han Kung,Jhao-Ting Chen,Daniel Stanley Tan,Jun-Cheng Chen,Kai‐Lung Hua

标识

DOI：10.1109/icassp43922.2022.9747841

摘要

The key for the contemporary deep learning-based object and action localization algorithms to work is the large-scale annotated data. However, in real-world scenarios, since there are infinite amounts of unlabeled data beyond the categories of publicly available datasets, it is not only time- and manpower-consuming to annotate all the data but also requires a lot of computational resources to train the detectors. To address these issues, we show a simple and reliable baseline that can be easily obtained and work directly for the zero-shot text-guided object and action localization tasks without introducing additional training costs by using Grad-CAM, the widely used class visual saliency map generator, with the help of the recently released Contrastive Language-Image Pre-Training (CLIP) model by OpenAI, which is trained contrastively using the dataset of 400 million image-sentence pairs with rich cross-modal information between text semantics and image appearances. With extensive experiments on the Open Images and HICO-DET datasets, the results demonstrate the effectiveness of the proposed approach for the text-guided unseen object and action localization tasks for images.

求助该文献

最长约 10秒，即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI

我的文献求助列表浏览历史

一分钟了解求助规则 | 捐赠本站 | 历史今天

更新

2025年影响因子查询已上线 (2025-6-18)

更新

PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台，具备全网最快的应助速度，最高的求助完成率。对每一个文献求助，科研通都将尽心尽力，给求助人一个满意的交代。

实时播报: CodeCraft上传了应助文件

1秒前; iNk上传了应助文件

1秒前; wsh完成签到，获得积分10

1秒前; 田様的应助被健壮傻姑娘采纳，获得10

2秒前; Wait for a M发布了新的文献求助10

3秒前; 哈哈4028发布了新的文献求助10

3秒前; SciGPT的应助被xy采纳，获得10

4秒前; con完成签到，获得积分10

4秒前; 汉堡包的应助被星星藏在枕边采纳，获得10

5秒前; 风清扬发布了新的文献求助10

5秒前; 自然秋柳发布了新的文献求助10

6秒前; 善学以致用的应助被小田睡不醒采纳，获得10

7秒前; 深夜诗人完成签到，获得积分10

8秒前; mm发布了新的文献求助10

8秒前; CipherSage的应助被欣喜尔风采纳，获得10

11秒前; 充电宝的应助被程晨采纳，获得10

12秒前; 汉堡包的应助被LY采纳，获得20

12秒前; 善学以致用上传了应助文件

13秒前; 顾矜的应助被doo采纳，获得10

14秒前; 欢呼的夏山完成签到，获得积分10

14秒前; 独特的追命上传了应助文件

14秒前; 充电宝的应助被小水滴采纳，获得10

14秒前; 田様上传了应助文件

18秒前; 大个的应助被蜉蝣梦想家采纳，获得10

18秒前; iNk的应助被mimi采纳，获得20

18秒前; gmjinfeng完成签到，获得积分0

18秒前; xiaoxiao完成签到，获得积分10

19秒前; 小田睡不醒发布了新的文献求助10

19秒前; 克林沙星完成签到，获得积分10

21秒前; 小二郎上传了应助文件

21秒前; 共享精神上传了应助文件

23秒前; 健壮傻姑娘发布了新的文献求助10

24秒前; hmj完成签到，获得积分10

24秒前; 完美世界上传了应助文件

24秒前; Orange上传了应助文件

25秒前; 我是老大上传了应助文件

26秒前; 搜集达人的应助被溪泉采纳，获得10

27秒前; XXY发布了新的文献求助10

27秒前; SciGPT上传了应助文件

27秒前; 小田睡不醒完成签到，获得积分10

28秒前

高分求助中: (应助此贴封号)【重要！！请各位详细阅读】【科研通的精品贴汇总】 10000; Les Mantodea de Guyane: Insecta, Polyneoptera [The Mantids of French Guiana] 3000; F-35B V2.0 How to build Kitty Hawk's F-35B Version 2.0 Model 2500; 줄기세포 생물학 1000; The Netter Collection of Medical Illustrations: Digestive System, Volume 9, Part III - Liver, Biliary Tract, and Pancreas （3rd Edition） 600; INQUIRY-BASED PEDAGOGY TO SUPPORT STEM LEARNING AND 21ST CENTURY SKILLS: PREPARING NEW TEACHERS TO IMPLEMENT PROJECT AND PROBLEM-BASED LEARNING 500; 2025-2031全球及中国蛋黄lgY抗体行业研究及十五五规划分析报告（2025-2031 Global and China Chicken lgY Antibody Industry Research and 15th Five Year Plan Analysis Report） 400

热门求助领域（近24小时）

热门帖子: 关注科研通微信公众号，转发送积分 4480753; 求助须知：如何正确求助？哪些是违规求助？ 3937538; 关于积分的说明 12215390; 捐赠科研通 3592539; 什么是DOI，文献DOI怎么找？ 1975689; 邀请新用户注册赠送积分活动 1012835; 科研通“疑难数据库（出版商）”最低求助积分说明 906039

今日热心研友

昏睡的蟠桃

期待未来的自己

今天只做一件事

注：热心度 = 本日应助数 + 本日被采纳获取积分÷10

Copyright © 2020-2025 AbleSci.COM, 科研通, All Right Reserved

科研通是非营利科研互助平台，不忘初心，为科研助力

本站互助的所有文件仅供个人学习研究用，禁止任何人把求助的所得文献进行盈利或传播

皖ICP备2024041134号-1

皖公网安备34019202002308

科研通【文献互助QQ群】：如果您有特殊求助，或发布求助超过24小时未得到应助，可加群求助，群号：941272744【点击一键加群】

科研通【志愿服务QQ群】：如果您热爱文献互助，有热心愿意为更多人服务，请加入小伙伴群，点击申请加入

关注微信服务号

科研通