Robust Sound Source Tracking Using SRP-PHAT and 3D Convolutional Neural Networks

混响 稳健性(进化) 卷积神经网络 计算机科学 声源定位 人工智能 模式识别(心理学) 声学 声音(地理) 生物化学 基因 物理 化学
作者
David Diaz-Guerra,Antonio Miguel,José Ramón Beltrán
出处
期刊:IEEE/ACM transactions on audio, speech, and language processing [Institute of Electrical and Electronics Engineers]
卷期号:29: 300-311 被引量:73
标识
DOI:10.1109/taslp.2020.3040031
摘要

In this article, we present a new single sound source DOA estimation and tracking system based on the well-known SRP-PHAT algorithm and a three-dimensional Convolutional Neural Network. It uses SRP-PHAT power maps as input features of a fully convolutional causal architecture that uses 3D convolutional layers to accurately perform the tracking of a sound source even in highly reverberant scenarios where most of the state of the art techniques fail. Unlike previous methods, since we do not use bidirectional recurrent layers and all our convolutional layers are causal in the time dimension, our system is feasible for real-time applications and it provides a new DOA estimation for each new SRP-PHAT map. To train the model, we introduce a new procedure to simulate random trajectories as they are needed during the training, equivalent to an infinite-size dataset with high flexibility to modify its acoustical conditions such as the reverberation time. We use both acoustical simulations on a large range of reverberation times and the actual recordings of the LOCATA dataset to prove the robustness of our system and its good performance even using low-resolution SRP-PHAT maps.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
ttxxcdx发布了新的文献求助10
刚刚
学术小白完成签到,获得积分10
刚刚
火星上冥茗完成签到,获得积分10
1秒前
<・)))><<完成签到,获得积分10
3秒前
郭京京完成签到 ,获得积分10
4秒前
4秒前
Owen应助科研通管家采纳,获得10
5秒前
SYLH应助科研通管家采纳,获得10
5秒前
Aran_Zhang应助科研通管家采纳,获得20
5秒前
5秒前
Grace完成签到,获得积分10
5秒前
扶光完成签到 ,获得积分10
5秒前
丘比特应助ttxxcdx采纳,获得10
6秒前
Akim应助离谱鸦采纳,获得10
7秒前
传奇3应助受伤的无敌采纳,获得20
7秒前
8秒前
8秒前
8秒前
吴萌发布了新的文献求助10
8秒前
如意的冰双完成签到 ,获得积分10
9秒前
汉堡包应助魏哈哈哈采纳,获得10
10秒前
黄石发布了新的文献求助10
12秒前
12秒前
奔铂儿钯发布了新的文献求助20
13秒前
gao456789发布了新的文献求助150
14秒前
Anaero完成签到,获得积分10
16秒前
shuangma发布了新的文献求助10
17秒前
量子星尘发布了新的文献求助10
17秒前
growl完成签到,获得积分10
17秒前
酥糖完成签到,获得积分10
17秒前
冷静的伊完成签到,获得积分10
19秒前
xuqiansd完成签到,获得积分10
20秒前
黄石发布了新的文献求助10
20秒前
21秒前
xixi给xixi的求助进行了留言
23秒前
23秒前
24秒前
寒鸦少年完成签到,获得积分10
26秒前
26秒前
26秒前
高分求助中
【提示信息,请勿应助】请使用合适的网盘上传文件 10000
Continuum Thermodynamics and Material Modelling 2000
Electron microscopy study of magnesium hydride (MgH2) for Hydrogen Storage 800
Green Star Japan: Esperanto and the International Language Question, 1880–1945 800
Sentimental Republic: Chinese Intellectuals and the Maoist Past 800
Building Quantum Computers 500
近赤外発光材料の開発とOLEDの高性能化 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3869431
求助须知:如何正确求助?哪些是违规求助? 3411524
关于积分的说明 10674349
捐赠科研通 3135854
什么是DOI,文献DOI怎么找? 1729889
邀请新用户注册赠送积分活动 833555
科研通“疑难数据库(出版商)”最低求助积分说明 780883