SPICE: Self-Supervised Pitch Estimation

计算机科学 编码器 任务(项目管理) 语音识别 人工智能 基本事实 钥匙(锁) 信号(编程语言) 监督学习 基音检测算法 模式识别(心理学) 语音处理 人工神经网络 操作系统 计算机安全 经济 管理 程序设计语言
作者
Beat Gfeller,Christian Frank,Dominik Roblek,Matt Sharifi,Marco Tagliasacchi,Mihajlo Velimirović
出处
期刊:IEEE/ACM transactions on audio, speech, and language processing [Institute of Electrical and Electronics Engineers]
卷期号:28: 1118-1128 被引量:33
标识
DOI:10.1109/taslp.2020.2982285
摘要

We propose a model to estimate the fundamental frequency in monophonic audio, often referred to as pitch estimation. We acknowledge the fact that obtaining ground truth annotations at the required temporal and frequency resolution is a particularly daunting task. Therefore, we propose to adopt a self-supervised learning technique, which is able to estimate pitch without any form of supervision. The key observation is that pitch shift maps to a simple translation when the audio signal is analysed through the lens of the constant-Q transform (CQT). We design a self-supervised task by feeding two shifted slices of the CQT to the same convolutional encoder, and require that the difference in the outputs is proportional to the corresponding difference in pitch. In addition, we introduce a small model head on top of the encoder, which is able to determine the confidence of the pitch estimate, so as to distinguish between voiced and unvoiced audio. Our results show that the proposed method is able to estimate pitch at a level of accuracy comparable to fully supervised models, both on clean and noisy audio samples, although it does not require access to large labeled datasets.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
CC完成签到,获得积分10
2秒前
自信的秀发完成签到 ,获得积分10
2秒前
2秒前
阳光友蕊完成签到 ,获得积分10
3秒前
王多肉完成签到,获得积分10
4秒前
5秒前
5秒前
诺亚方舟哇哈哈完成签到 ,获得积分0
6秒前
爱吃鱼的猫完成签到,获得积分10
6秒前
龙丹妮子呀完成签到,获得积分10
7秒前
个性的冥王星完成签到,获得积分10
8秒前
秋雪瑶应助大气的小蜜蜂采纳,获得10
8秒前
hif1a发布了新的文献求助10
9秒前
shelemi发布了新的文献求助10
10秒前
orixero应助CMUSK采纳,获得10
11秒前
酷波er应助Alane采纳,获得10
12秒前
13秒前
Dingz完成签到,获得积分10
14秒前
hif1a完成签到,获得积分10
15秒前
依依完成签到 ,获得积分10
16秒前
总是犯错的男人完成签到 ,获得积分10
17秒前
ERICLEE82完成签到,获得积分10
17秒前
18秒前
钮之桃完成签到,获得积分10
18秒前
白桃乌龙完成签到,获得积分10
18秒前
绿蜡发布了新的文献求助200
18秒前
19秒前
爱学习的树袋熊完成签到,获得积分10
19秒前
猩心完成签到 ,获得积分10
19秒前
20秒前
科目三应助卷网那个采纳,获得10
20秒前
20秒前
爱学习爱劳动完成签到,获得积分10
20秒前
21秒前
巧克力酱完成签到 ,获得积分10
22秒前
23秒前
CMUSK发布了新的文献求助10
24秒前
shelemi完成签到,获得积分10
24秒前
tao完成签到 ,获得积分10
25秒前
如意竺发布了新的文献求助10
25秒前
高分求助中
请在求助之前详细阅读求助说明!!!! 20000
One Man Talking: Selected Essays of Shao Xunmei, 1929–1939 1000
The Three Stars Each: The Astrolabes and Related Texts 900
Yuwu Song, Biographical Dictionary of the People's Republic of China 800
Multifunctional Agriculture, A New Paradigm for European Agriculture and Rural Development 600
Bernd Ziesemer - Maos deutscher Topagent: Wie China die Bundesrepublik eroberte 500
A radiographic standard of reference for the growing knee 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 有机化学 工程类 生物化学 纳米技术 物理 内科学 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 电极 光电子学 量子力学
热门帖子
关注 科研通微信公众号,转发送积分 2478958
求助须知:如何正确求助?哪些是违规求助? 2141596
关于积分的说明 5459693
捐赠科研通 1864740
什么是DOI,文献DOI怎么找? 926997
版权声明 562915
科研通“疑难数据库(出版商)”最低求助积分说明 496023