Waveform-Domain Speech Enhancement Using Spectrogram Encoding for Robust Speech Recognition

光谱图 波形 计算机科学 语音识别 稳健性(进化) 编码器 编码(内存) 人工智能 时域 特征(语言学) 模式识别(心理学) 频域 计算机视觉 电信 雷达 生物化学 化学 语言学 哲学 基因 操作系统
作者
Hao Shi,Masato Mimura,Tatsuya Kawahara
出处
期刊:IEEE/ACM transactions on audio, speech, and language processing [Institute of Electrical and Electronics Engineers]
卷期号:32: 3049-3060 被引量:5
标识
DOI:10.1109/taslp.2024.3407511
摘要

While waveform-domain speech enhancement (SE) has been extensively investigated in recent years and achieves state-of-the-art performance in many datasets, spectrogram-based SE tends to show robust and stable enhancement behavior. In this paper, we propose a waveform-spectrogram hybrid method (WaveSpecEnc) to improve the robustness of waveform-domain SE. WaveSpecEnc refines the corresponding temporal feature map by spectrogram encoding in each encoder layer. Incorporating spectral information provides robust human hearing experience performance. However, it has a minor automatic speech recognition (ASR) improvement. Thus, we improve it for robust ASR by further utilizing spectrogram encoding information (WaveSpecEnc+) to both the SE front-end and ASR back-end. Experimental results using the CHiME-4 dataset show that ASR performance in real evaluation sets is consistently improved with the proposed method, which outperformed others, including DEMUCS and Conv-Tasnet. Refining in the shallow encoder layers is very effective, and the effect is confirmed even with a strong ASR baseline using WavLM.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
科目三应助Lucy采纳,获得20
1秒前
3秒前
zzz关闭了zzz文献求助
3秒前
Lex发布了新的文献求助30
3秒前
量子星尘发布了新的文献求助10
3秒前
5秒前
小丑完成签到,获得积分10
8秒前
天天快乐应助ZHANG采纳,获得10
10秒前
Shuhe_Gong完成签到 ,获得积分10
10秒前
科研通AI5应助XS_QI采纳,获得50
10秒前
可爱的函函应助Baonanza采纳,获得200
10秒前
111完成签到,获得积分10
12秒前
SciGPT应助墨绿色的丑梨采纳,获得10
13秒前
13秒前
Leila完成签到 ,获得积分10
14秒前
16秒前
aliu完成签到,获得积分10
17秒前
英姑应助科研通管家采纳,获得10
17秒前
MMMMM应助科研通管家采纳,获得30
17秒前
17秒前
华仔应助科研通管家采纳,获得10
17秒前
所所应助科研通管家采纳,获得10
18秒前
机灵柚子应助科研通管家采纳,获得20
18秒前
星辰大海应助科研通管家采纳,获得10
18秒前
领导范儿应助科研通管家采纳,获得10
18秒前
18秒前
科研通AI6应助科研通管家采纳,获得10
18秒前
小蘑菇应助科研通管家采纳,获得10
18秒前
18秒前
甜甜的越泽完成签到,获得积分10
18秒前
愿好应助孙朱珠采纳,获得10
19秒前
Jessica发布了新的文献求助10
22秒前
科研通AI5应助XS_QI采纳,获得50
23秒前
aliu发布了新的文献求助10
25秒前
26秒前
26秒前
28秒前
leeeeee完成签到,获得积分20
28秒前
fc616完成签到,获得积分10
28秒前
Dr.YYF.完成签到,获得积分10
29秒前
高分求助中
Organic Chemistry 20086
(应助此贴封号)【重要!!请各位详细阅读】【科研通的精品贴汇总】 10000
Voyage au bout de la révolution: de Pékin à Sochaux 700
yolo算法-游泳溺水检测数据集 500
First Farmers: The Origins of Agricultural Societies, 2nd Edition 500
Metals, Minerals, and Society 400
International socialism & Australian labour : the Left in Australia, 1919-1939 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 冶金 细胞生物学 免疫学
热门帖子
关注 科研通微信公众号,转发送积分 4293400
求助须知:如何正确求助?哪些是违规求助? 3819900
关于积分的说明 11961479
捐赠科研通 3463097
什么是DOI,文献DOI怎么找? 1899612
邀请新用户注册赠送积分活动 947847
科研通“疑难数据库(出版商)”最低求助积分说明 850495