Align Your Latents: High-Resolution Video Synthesis with Latent Diffusion Models

计算机科学 杠杆(统计) 发电机(电路理论) 人工智能 光学(聚焦) 计算机视觉 量子力学 光学 物理 功率(物理)
作者
Andreas Blattmann,Robin Rombach,Huan Ling,Tim Dockhorn,Seung Wook Kim,Sanja Fidler,Karsten Kreis
标识
DOI:10.1109/cvpr52729.2023.02161
摘要

Latent Diffusion Models (LDMs) enable high-quality image synthesis while avoiding excessive compute demands by training a diffusion model in a compressed lower-dimensional latent space. Here, we apply the LDM paradigm to high-resolution video generation, a particularly resource-intensive task. We first pre-train an LDM on images only; then, we turn the image generator into a video generator by introducing a temporal dimension to the latent space diffusion model and finetuning on encoded image sequences, i.e., videos. Similarly, we temporally align diffusion model upsamplers, turning them into temporally consistent video super resolution models. We focus on two relevant real-world applications: Simulation of in-the-wild driving data and creative content creation with text-to-video modeling. In particular, we validate our Video LDM on real driving videos of resolution $512 \times 1024$ , achieving state-of-the-art performance. Furthermore, our approach can easily leverage off-the-shelf pretrained image LDMs, as we only need to train a temporal alignment model in that case. Doing so, we turn the publicly available, state-of-the-art text-to-image LDM Stable Diffusion into an efficient and expressive text-to-video model with resolution up to $1280 \times 2048$ . We show that the temporal layers trained in this way generalize to different finetuned text-to-image LDMs. Utilizing this property, we show the first results for personalized text-to-video generation, opening exciting directions for future content creation. Project page: https://nv-tlabs.github.io/VideoLDM/

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
洪山老狗发布了新的文献求助30
1秒前
sssjjjxx发布了新的文献求助10
1秒前
空城发布了新的文献求助30
2秒前
pluto应助淡淡的冰颜采纳,获得10
2秒前
壮观的菠萝完成签到,获得积分10
2秒前
2秒前
凡仔发布了新的文献求助10
3秒前
自觉紫安发布了新的文献求助10
3秒前
3秒前
笨笨的秋蝶完成签到,获得积分10
4秒前
myS完成签到 ,获得积分10
4秒前
5秒前
星辰大海应助23333采纳,获得10
5秒前
5秒前
似水无痕完成签到,获得积分10
5秒前
5秒前
拳头发布了新的文献求助10
6秒前
量子星尘发布了新的文献求助10
6秒前
阳光的yuyu完成签到,获得积分10
6秒前
adi发布了新的文献求助10
6秒前
陈末应助puzhongjiMiQ采纳,获得10
7秒前
陈末应助puzhongjiMiQ采纳,获得10
7秒前
浮游应助puzhongjiMiQ采纳,获得10
7秒前
浮游应助puzhongjiMiQ采纳,获得10
7秒前
小任同学要努力完成签到 ,获得积分10
7秒前
7秒前
8秒前
qianzi发布了新的文献求助10
9秒前
CCS发布了新的文献求助20
9秒前
浮游应助lins采纳,获得10
9秒前
赘婿应助初余采纳,获得10
9秒前
赘婿应助lilia采纳,获得30
9秒前
ZXB完成签到,获得积分10
10秒前
layzhj完成签到,获得积分10
10秒前
Max完成签到,获得积分10
10秒前
cdm700发布了新的文献求助10
11秒前
无极微光应助zzzkk采纳,获得20
11秒前
塔麻头完成签到,获得积分10
11秒前
LIU完成签到 ,获得积分10
11秒前
mini昕发布了新的文献求助10
12秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Introduction to Early Childhood Education 1000
2025-2031年中国兽用抗生素行业发展深度调研与未来趋势报告 1000
List of 1,091 Public Pension Profiles by Region 921
Identifying dimensions of interest to support learning in disengaged students: the MINE project 800
Synthesis and properties of compounds of the type A (III) B2 (VI) X4 (VI), A (III) B4 (V) X7 (VI), and A3 (III) B4 (V) X9 (VI) 500
Antihistamine substances. XXII; Synthetic antispasmodics. IV. Basic ethers derived from aliphatic carbinols and α-substituted benzyl alcohols 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 生物化学 物理 纳米技术 计算机科学 内科学 化学工程 复合材料 物理化学 基因 遗传学 催化作用 冶金 量子力学 光电子学
热门帖子
关注 科研通微信公众号,转发送积分 5430372
求助须知:如何正确求助?哪些是违规求助? 4543585
关于积分的说明 14188041
捐赠科研通 4461764
什么是DOI,文献DOI怎么找? 2446288
邀请新用户注册赠送积分活动 1437689
关于科研通互助平台的介绍 1414458