One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale

计算机科学 参数化复杂度 人工智能 图像(数学) 情态动词 模式 变压器 算法 计算机视觉 物理 社会科学 量子力学 社会学 电压 化学 高分子化学
作者
Fan Bao,Shen Nie,Kaiwen Xue,Chongxuan Li,Shi Pu,Yaole Wang,Gang Yue,Yue Cao,Hang Su,Jun Zhu
出处
期刊:Cornell University - arXiv 被引量:20
标识
DOI:10.48550/arxiv.2303.06555
摘要

This paper proposes a unified diffusion framework (dubbed UniDiffuser) to fit all distributions relevant to a set of multi-modal data in one model. Our key insight is -- learning diffusion models for marginal, conditional, and joint distributions can be unified as predicting the noise in the perturbed data, where the perturbation levels (i.e. timesteps) can be different for different modalities. Inspired by the unified view, UniDiffuser learns all distributions simultaneously with a minimal modification to the original diffusion model -- perturbs data in all modalities instead of a single modality, inputs individual timesteps in different modalities, and predicts the noise of all modalities instead of a single modality. UniDiffuser is parameterized by a transformer for diffusion models to handle input types of different modalities. Implemented on large-scale paired image-text data, UniDiffuser is able to perform image, text, text-to-image, image-to-text, and image-text pair generation by setting proper timesteps without additional overhead. In particular, UniDiffuser is able to produce perceptually realistic samples in all tasks and its quantitative results (e.g., the FID and CLIP score) are not only superior to existing general-purpose models but also comparable to the bespoken models (e.g., Stable Diffusion and DALL-E 2) in representative tasks (e.g., text-to-image generation).
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
SciGPT应助zhffdss采纳,获得10
1秒前
司空豁发布了新的文献求助30
2秒前
jiw发布了新的文献求助10
3秒前
vic303完成签到,获得积分10
3秒前
大个应助zpc采纳,获得10
4秒前
4秒前
4秒前
5秒前
小兰发布了新的文献求助10
5秒前
5秒前
土豆发布了新的文献求助10
7秒前
7秒前
sciDoge完成签到,获得积分10
7秒前
zhffdss完成签到,获得积分10
7秒前
mf2002mf完成签到,获得积分10
10秒前
10秒前
11秒前
11秒前
研友_n0kjPL完成签到,获得积分0
12秒前
一颗小行星完成签到 ,获得积分10
12秒前
13秒前
14秒前
14秒前
司空豁发布了新的文献求助10
18秒前
TS发布了新的文献求助30
19秒前
科研狗完成签到,获得积分10
19秒前
小生发布了新的文献求助10
20秒前
nenoaowu发布了新的文献求助10
20秒前
22秒前
22秒前
23秒前
执着的笑南完成签到,获得积分10
24秒前
情怀应助呆呆熊采纳,获得10
25秒前
25秒前
Akim应助典雅的听筠采纳,获得10
26秒前
27秒前
王狗若发布了新的文献求助10
28秒前
hemengqin发布了新的文献求助10
28秒前
特别圆的正方形完成签到 ,获得积分10
30秒前
30秒前
高分求助中
The Mother of All Tableaux Order, Equivalence, and Geometry in the Large-scale Structure of Optimality Theory 1370
Secondary Ion Mass Spectrometry: Basic Concepts, Instrumental Aspects, Applications and Trends 1000
Comparison of adverse drug reactions of heparin and its derivates in the European Economic Area based on data from EudraVigilance between 2017 and 2021 500
[Relativity of the 5-year follow-up period as a criterion for cured cancer] 500
Statistical Analysis of fMRI Data, second edition (Mit Press) 2nd ed 500
Sellars and Davidson in Dialogue 500
Huang‘s catheter ablation of cardiac arrthymias 5th edtion 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 冶金 细胞生物学 免疫学
热门帖子
关注 科研通微信公众号,转发送积分 3942137
求助须知:如何正确求助?哪些是违规求助? 3487408
关于积分的说明 11043643
捐赠科研通 3217872
什么是DOI,文献DOI怎么找? 1778587
邀请新用户注册赠送积分活动 864362
科研通“疑难数据库(出版商)”最低求助积分说明 799375