VILA: Learning Image Aesthetics from User Comments with Vision-Language Pretraining

计算机科学 隐藏字幕 人工智能 图像(数学) 自然语言处理 自然语言 语义学(计算机科学) 情报检索 程序设计语言
作者
Junjie Ke,Keren Ye,Jiahui Yu,Yonghui Wu,Peyman Milanfar,Feng Yang
标识
DOI:10.1109/cvpr52729.2023.00968
摘要

Assessing the aesthetics of an image is challenging, as it is influenced by multiple factors including composition, color, style, and high-level semantics. Existing image aesthetic assessment (IAA) methods primarily rely on human-labeled rating scores, which oversimplify the visual aesthetic information that humans perceive. Conversely, user comments offer more comprehensive information and are a more natural way to express human opinions and preferences regarding image aesthetics. In light of this, we propose learning image aesthetics from user comments, and exploring vision-language pretraining methods to learn multimodal aesthetic representations. Specifically, we pretrain an image-text encoder-decoder model with image-comment pairs, using contrastive and generative objectives to learn rich and generic aesthetic semantics without human labels. To efficiently adapt the pretrained model for downstream IAA tasks, we further propose a lightweight rank-based adapter that employs text as an anchor to learn the aesthetic ranking concept. Our results show that our pretrained aesthetic vision-language model outperforms prior works on image aesthetic captioning over the AVA-Captions dataset, and it has powerful zero-shot capability for aesthetic tasks such as zero-shot style classification and zero-shot IAA, surpassing many supervised baselines. With only minimal finetuning parameters using the proposed adapter module, our model achieves state-of-the-art IAA performance over the AVA dataset. 1 1 Our model is available at https://github.com/google-research/google-research/tree/master/VILA
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
刚刚
饱满鲂发布了新的文献求助20
刚刚
刚刚
潜水的桃完成签到,获得积分10
1秒前
清脆的怀柔完成签到,获得积分10
4秒前
returno_0完成签到 ,获得积分10
4秒前
qijie发布了新的文献求助10
4秒前
furinaism发布了新的文献求助10
5秒前
科研通AI6.2应助趙途嘵生采纳,获得10
7秒前
大唐少年完成签到 ,获得积分10
7秒前
顾矜应助Allen采纳,获得10
8秒前
再炫一袋砂糖橘完成签到 ,获得积分10
10秒前
Archer完成签到,获得积分10
10秒前
Yuki酱完成签到 ,获得积分10
13秒前
13秒前
skywet发布了新的文献求助10
14秒前
SY15732023811完成签到 ,获得积分10
14秒前
16秒前
chenchen完成签到,获得积分10
17秒前
17秒前
18秒前
充电宝应助Wd采纳,获得10
18秒前
18秒前
19秒前
19秒前
19秒前
19秒前
20秒前
20秒前
21秒前
21秒前
21秒前
Orange应助晴朗泥泞采纳,获得10
22秒前
趙途嘵生发布了新的文献求助10
22秒前
seaman发布了新的文献求助10
22秒前
SC完成签到,获得积分10
23秒前
seaman发布了新的文献求助10
23秒前
seaman发布了新的文献求助10
24秒前
seaman发布了新的文献求助10
24秒前
seaman发布了新的文献求助10
24秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Developing Genetic Editing Tools for Lysobacter 2000
卤化钙钛矿人工突触的研究 2000
Моделирование процессов самоорганизации в кристаллообразующих системах 1000
History of U.S. Space Surveillance and Satellite Cataloging 1000
Malcolm Fraser : a biography 700
Signals, Systems, and Signal Processing 610
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 化学工程 生物化学 计算机科学 物理 内科学 复合材料 催化作用 物理化学 光电子学 电极 细胞生物学 基因 无机化学
热门帖子
关注 科研通微信公众号,转发送积分 6515845
求助须知:如何正确求助?哪些是违规求助? 8308943
关于积分的说明 17759134
捐赠科研通 5618049
什么是DOI,文献DOI怎么找? 2925254
邀请新用户注册赠送积分活动 1902246
关于科研通互助平台的介绍 1763489