已入深夜,您辛苦了!由于当前在线用户较少,发布求助请尽量完整地填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!祝你早点完成任务,早点休息,好梦!

Vector Quantized Diffusion Model for Text-to-Image Synthesis

扩散 计算机科学 图像质量 图像(数学) 算法 人工智能 各项异性扩散 自回归模型 模式识别(心理学) 编码(内存) 图像分辨率 自编码 计算机视觉 数学 深度学习 物理 统计 热力学
作者
Shuyang Gu,Dong Chen,Jianmin Bao,Fang Wen,Bo Zhang,Dongdong Chen,Lu Yuan,Baining Guo
标识
DOI:10.1109/cvpr52688.2022.01043
摘要

We present the vector quantized diffusion (VQ-Diffusion) model for text-to-image generation. This method is based on a vector quantized variational autoencoder (VQ-VAE) whose latent space is modeled by a conditional variant of the recently developed Denoising Diffusion Probabilistic Model (DDPM). We find that this latent-space method is well-suited for text-to-image generation tasks because it not only eliminates the unidirectional bias with existing methods but also allows us to incorporate a mask-and-replace diffusion strategy to avoid the accumulation of errors, which is a serious problem with existing methods. Our experiments show that the VQ-Diffusion produces significantly better text-to-image generation results when compared with conventional autoregressive (AR) models with similar numbers of parameters. Compared with previous GAN-based text-to-image methods, our VQ-Diffusion can handle more complex scenes and improve the synthesized image quality by a large margin. Finally, we show that the image generation computation in our method can be made highly efficient by reparameterization. With traditional AR methods, the text-to-image generation time increases linearly with the output image resolution and hence is quite time consuming even for normal size images. The VQ-Diffusion allows us to achieve a better trade-off between quality and speed. Our experiments indicate that the VQ-Diffusion model with the reparameterization is fifteen times faster than traditional AR methods while achieving a better image quality. The code and models are available at https://github.com/cientgu/VQ-Diffusion.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
SCI发发发布了新的文献求助10
1秒前
1秒前
molihuakai应助科研通管家采纳,获得10
3秒前
田様应助科研通管家采纳,获得10
3秒前
星辰大海应助科研通管家采纳,获得10
3秒前
3秒前
今后应助科研通管家采纳,获得10
3秒前
Takahara2000完成签到,获得积分10
3秒前
Akim应助科研通管家采纳,获得10
3秒前
3秒前
3秒前
3秒前
4秒前
4秒前
4秒前
干净的乐菱完成签到 ,获得积分10
4秒前
4秒前
4秒前
4秒前
干净的琦应助科研通管家采纳,获得30
4秒前
打打应助科研通管家采纳,获得30
4秒前
4秒前
汉堡包应助郑盼秋采纳,获得20
5秒前
发如雪完成签到,获得积分10
5秒前
kingwill发布了新的文献求助30
7秒前
TongVS发布了新的文献求助10
9秒前
10秒前
11秒前
SCI发发完成签到,获得积分20
12秒前
17秒前
17秒前
大导师发布了新的文献求助10
17秒前
yemuan完成签到,获得积分10
18秒前
huangxuliang发布了新的文献求助30
21秒前
fzj完成签到,获得积分10
23秒前
orixero应助神勇惜芹采纳,获得10
23秒前
科科1007发布了新的文献求助10
24秒前
25秒前
27秒前
28秒前
高分求助中
Clinical Epidemiology: The Essentials, 6e 10000
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
The Graphene Handbook (2019 Edition) 800
Adhesion Science: Principles & Practice 800
Signals, Systems, and Signal Processing 610
Fundamentals of Pharmaceutical and Biologics Regulations: A Global Perspective, Second Edition 600
The Immune System (Fifth Edition) 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 化学工程 生物化学 计算机科学 物理 内科学 复合材料 催化作用 物理化学 光电子学 电极 细胞生物学 基因 无机化学
热门帖子
关注 科研通微信公众号,转发送积分 6568941
求助须知:如何正确求助?哪些是违规求助? 8348296
关于积分的说明 17885960
捐赠科研通 5696554
什么是DOI,文献DOI怎么找? 2944317
邀请新用户注册赠送积分活动 1920252
关于科研通互助平台的介绍 1796662