已入深夜,您辛苦了!由于当前在线用户较少,发布求助请尽量完整的填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!祝你早点完成任务,早点休息,好梦!

Sound to Visual Scene Generation by Audio-to-Visual Latent Alignment

计算机科学 人工智能 音质 视听 可视化 情态动词 音频信号处理 语音识别 计算机视觉 音频信号 多媒体 语音编码 化学 高分子化学
作者
Sung-Bin Kim,Arda Senocak,Hyunwoo Ha,Andrew Owens,Tae-Hyun Oh
标识
DOI:10.1109/cvpr52729.2023.00622
摘要

How does audio describe the world around us? In this paper, we propose a method for generating an image of a scene from sound. Our method addresses the challenges of dealing with the large gaps that often exist between sight and sound. We design a model that works by scheduling the learning procedure of each model component to associate audio-visual modalities despite their information gaps. The key idea is to enrich the audio features with visual information by learning to align audio to visual latent space. We translate the input audio to visual features, then use a pre-trained generator to produce an image. To further improve the quality of our generated images, we use sound source localization to select the audio-visual pairs that have strong cross-modal correlations. We obtain substantially better results on the VEGAS and VGGSound datasets than prior approaches. We also show that we can control our model's predictions by applying simple manipulations to the input waveform, or to the latent space.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
2秒前
malenia完成签到,获得积分10
2秒前
yangzai完成签到 ,获得积分10
2秒前
春山完成签到 ,获得积分10
4秒前
咕咕咕发布了新的文献求助10
6秒前
丰富的绮波完成签到 ,获得积分10
8秒前
zyl完成签到,获得积分10
9秒前
10秒前
阿士大夫完成签到 ,获得积分10
10秒前
yellow完成签到 ,获得积分10
10秒前
年轻的冰海完成签到,获得积分10
11秒前
若雨凌风应助bc采纳,获得180
12秒前
五十一完成签到 ,获得积分10
13秒前
andrele应助子夜yyy采纳,获得10
15秒前
称心如意完成签到 ,获得积分10
17秒前
勤奋飞飞关注了科研通微信公众号
17秒前
虞头星星完成签到 ,获得积分10
18秒前
宋向荣完成签到 ,获得积分10
20秒前
kdjm688完成签到,获得积分10
23秒前
咕咕咕完成签到,获得积分10
26秒前
zydaphne完成签到 ,获得积分10
27秒前
丘比特应助Zaltz采纳,获得10
28秒前
橙子完成签到 ,获得积分10
30秒前
眠眠清完成签到 ,获得积分10
32秒前
苦逼的医学生陳完成签到 ,获得积分10
32秒前
pK完成签到 ,获得积分10
34秒前
隐形曼青应助浓雾采纳,获得10
35秒前
欣喜的缘分完成签到 ,获得积分10
36秒前
Angenstern完成签到 ,获得积分10
37秒前
东方天奇完成签到 ,获得积分10
38秒前
牛马人完成签到 ,获得积分20
38秒前
soar完成签到 ,获得积分10
40秒前
aXing~~发布了新的文献求助10
40秒前
华仔应助星期八采纳,获得10
41秒前
42秒前
42秒前
牛马人关注了科研通微信公众号
43秒前
45秒前
汉堡包应助猪猪hero采纳,获得10
46秒前
浓雾发布了新的文献求助10
46秒前
高分求助中
Разработка метода ускоренного контроля качества электрохромных устройств 500
Chinesen in Europa – Europäer in China: Journalisten, Spione, Studenten 500
Arthur Ewert: A Life for the Comintern 500
China's Relations With Japan 1945-83: The Role of Liao Chengzhi // Kurt Werner Radtke 500
Two Years in Peking 1965-1966: Book 1: Living and Teaching in Mao's China // Reginald Hunt 500
Epigenetic Drug Discovery 500
Politiek-Politioneele Overzichten van Nederlandsch-Indië. Bronnenpublicatie, Deel II 1929-1930 300
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3819788
求助须知:如何正确求助?哪些是违规求助? 3362709
关于积分的说明 10418348
捐赠科研通 3080946
什么是DOI,文献DOI怎么找? 1694903
邀请新用户注册赠送积分活动 814783
科研通“疑难数据库(出版商)”最低求助积分说明 768482