清晨好,您是今天最早来到科研通的研友!由于当前在线用户较少,发布求助请尽量完整地填写文献信息,科研通机器人24小时在线,伴您科研之路漫漫前行!

Align Your Latents: High-Resolution Video Synthesis with Latent Diffusion Models

计算机科学 杠杆(统计) 发电机(电路理论) 人工智能 光学(聚焦) 计算机视觉 量子力学 光学 物理 功率(物理)
作者
Andreas Blattmann,Robin Rombach,Huan Ling,Tim Dockhorn,Seung Wook Kim,Sanja Fidler,Karsten Kreis
标识
DOI:10.1109/cvpr52729.2023.02161
摘要

Latent Diffusion Models (LDMs) enable high-quality image synthesis while avoiding excessive compute demands by training a diffusion model in a compressed lower-dimensional latent space. Here, we apply the LDM paradigm to high-resolution video generation, a particularly resource-intensive task. We first pre-train an LDM on images only; then, we turn the image generator into a video generator by introducing a temporal dimension to the latent space diffusion model and finetuning on encoded image sequences, i.e., videos. Similarly, we temporally align diffusion model upsamplers, turning them into temporally consistent video super resolution models. We focus on two relevant real-world applications: Simulation of in-the-wild driving data and creative content creation with text-to-video modeling. In particular, we validate our Video LDM on real driving videos of resolution $512 \times 1024$ , achieving state-of-the-art performance. Furthermore, our approach can easily leverage off-the-shelf pretrained image LDMs, as we only need to train a temporal alignment model in that case. Doing so, we turn the publicly available, state-of-the-art text-to-image LDM Stable Diffusion into an efficient and expressive text-to-video model with resolution up to $1280 \times 2048$ . We show that the temporal layers trained in this way generalize to different finetuned text-to-image LDMs. Utilizing this property, we show the first results for personalized text-to-video generation, opening exciting directions for future content creation. Project page: https://nv-tlabs.github.io/VideoLDM/
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
小鱼完成签到 ,获得积分10
4秒前
6秒前
柯彦完成签到 ,获得积分10
10秒前
橙子完成签到,获得积分10
10秒前
13秒前
大意的书兰完成签到,获得积分10
16秒前
婉莹完成签到 ,获得积分0
20秒前
淞淞于我完成签到 ,获得积分0
24秒前
aeolianbells完成签到 ,获得积分10
24秒前
waynechang完成签到,获得积分10
28秒前
Akim应助ongkianwhww采纳,获得10
29秒前
曈曦完成签到 ,获得积分10
30秒前
逍遥子完成签到,获得积分10
53秒前
海盗船长完成签到,获得积分10
55秒前
56秒前
cherry bomb完成签到,获得积分10
1分钟前
飞翔的荷兰人完成签到,获得积分10
1分钟前
安静老姆发布了新的文献求助10
1分钟前
爱上学的小金完成签到 ,获得积分10
1分钟前
昵称什么的不重要啦完成签到 ,获得积分10
1分钟前
慕青应助科研通管家采纳,获得10
1分钟前
时尚的访琴完成签到 ,获得积分10
1分钟前
秋迎夏完成签到,获得积分0
1分钟前
1分钟前
ongkianwhww发布了新的文献求助10
1分钟前
LJ_2完成签到 ,获得积分0
2分钟前
t铁核桃1985完成签到 ,获得积分0
2分钟前
可可派完成签到,获得积分10
2分钟前
Dong完成签到 ,获得积分10
2分钟前
wwdd完成签到,获得积分10
2分钟前
sci完成签到 ,获得积分10
2分钟前
2分钟前
Liao发布了新的文献求助10
2分钟前
Scheduling完成签到 ,获得积分10
2分钟前
YingxueRen完成签到,获得积分10
2分钟前
认真觅荷完成签到 ,获得积分10
2分钟前
Liao完成签到,获得积分10
2分钟前
奋斗的妙海完成签到 ,获得积分0
2分钟前
沉默的冬寒完成签到 ,获得积分10
2分钟前
吴谷杂粮完成签到 ,获得积分10
2分钟前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Picture this! Including first nations fiction picture books in school library collections 2000
The Cambridge History of China: Volume 4, Sui and T'ang China, 589–906 AD, Part Two 1500
Cowries - A Guide to the Gastropod Family Cypraeidae 1200
ON THE THEORY OF BIRATIONAL BLOWING-UP 666
Signals, Systems, and Signal Processing 610
Pulse width control of a 3-phase inverter with non sinusoidal phase voltages 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 化学工程 生物化学 计算机科学 物理 内科学 复合材料 催化作用 物理化学 光电子学 电极 细胞生物学 基因 无机化学
热门帖子
关注 科研通微信公众号,转发送积分 6389442
求助须知:如何正确求助?哪些是违规求助? 8204361
关于积分的说明 17359160
捐赠科研通 5443098
什么是DOI,文献DOI怎么找? 2878169
邀请新用户注册赠送积分活动 1854408
关于科研通互助平台的介绍 1698074