Layout-Bridging Text-to-Image Synthesis

计算机科学 图像(数学) 桥接(联网) 跳跃式监视 人工智能 一致性(知识库) 情报检索 计算机网络
作者
Jiadong Liang,Wenjie Pei,Feng Liu
出处
期刊:Cornell University - arXiv 被引量:1
标识
DOI:10.48550/arxiv.2208.06162
摘要

The crux of text-to-image synthesis stems from the difficulty of preserving the cross-modality semantic consistency between the input text and the synthesized image. Typical methods, which seek to model the text-to-image mapping directly, could only capture keywords in the text that indicates common objects or actions but fail to learn their spatial distribution patterns. An effective way to circumvent this limitation is to generate an image layout as guidance, which is attempted by a few methods. Nevertheless, these methods fail to generate practically effective layouts due to the diversity of input text and object location. In this paper we push for effective modeling in both text-to-layout generation and layout-to-image synthesis. Specifically, we formulate the text-to-layout generation as a sequence-to-sequence modeling task, and build our model upon Transformer to learn the spatial relationships between objects by modeling the sequential dependencies between them. In the stage of layout-to-image synthesis, we focus on learning the textual-visual semantic alignment per object in the layout to precisely incorporate the input text into the layout-to-image synthesizing process. To evaluate the quality of generated layout, we design a new metric specifically, dubbed Layout Quality Score, which considers both the absolute distribution errors of bounding boxes in the layout and the mutual spatial relationships between them. Extensive experiments on three datasets demonstrate the superior performance of our method over state-of-the-art methods on both predicting the layout and synthesizing the image from the given text.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
刚刚
seet完成签到,获得积分20
2秒前
5秒前
小丸子发布了新的文献求助10
6秒前
秋秋完成签到,获得积分10
15秒前
孟不二完成签到 ,获得积分10
16秒前
残荷听雨发布了新的文献求助10
18秒前
18秒前
倪可欣发布了新的文献求助30
22秒前
suyu完成签到,获得积分10
22秒前
seet发布了新的文献求助10
23秒前
xzy完成签到,获得积分10
24秒前
Caism应助霍师傅采纳,获得10
25秒前
csphhh完成签到,获得积分10
26秒前
ZhouHang完成签到,获得积分10
28秒前
共享精神应助风中的梦竹采纳,获得10
29秒前
29秒前
hyg完成签到,获得积分10
31秒前
大笨蛋发布了新的文献求助150
32秒前
凤凰应助adai007采纳,获得30
33秒前
snow_dragon完成签到 ,获得积分10
34秒前
34秒前
34秒前
hsq15123完成签到 ,获得积分10
37秒前
38秒前
王楠楠完成签到,获得积分10
38秒前
bkagyin应助Frank采纳,获得10
38秒前
ggbod发布了新的文献求助10
39秒前
安静心情发布了新的文献求助10
39秒前
40秒前
深情安青应助王楠楠采纳,获得10
43秒前
科研通AI2S应助赵婧秀采纳,获得10
45秒前
ling_lz完成签到,获得积分10
45秒前
活泼的番茄完成签到 ,获得积分10
48秒前
喔喔完成签到,获得积分10
49秒前
害怕的笑槐应助科研通管家采纳,获得100
51秒前
顾矜应助科研通管家采纳,获得10
51秒前
CodeCraft应助科研通管家采纳,获得10
51秒前
53秒前
传奇3应助无语的如音采纳,获得10
54秒前
高分求助中
Un calendrier babylonien des travaux, des signes et des mois: Séries iqqur îpuš 1036
Quantum Science and Technology Volume 5 Number 4, October 2020 1000
Formgebungs- und Stabilisierungsparameter für das Konstruktionsverfahren der FiDU-Freien Innendruckumformung von Blech 1000
IG Farbenindustrie AG and Imperial Chemical Industries Limited strategies for growth and survival 1925-1953 800
Sustainable Land Management: Strategies to Cope with the Marginalisation of Agriculture 600
Prochinois Et Maoïsmes En France (et Dans Les Espaces Francophones) 500
Offline version of the Proceedings of 15th EWTEC 2023, Bilbao 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 有机化学 工程类 生物化学 纳米技术 物理 内科学 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 电极 光电子学 量子力学
热门帖子
关注 科研通微信公众号,转发送积分 2523191
求助须知:如何正确求助?哪些是违规求助? 2165904
关于积分的说明 5554762
捐赠科研通 1886074
什么是DOI,文献DOI怎么找? 939185
版权声明 564547
科研通“疑难数据库(出版商)”最低求助积分说明 500877