Stable Distillation: Regularizing Continued Pre-Training for Low-Resource Automatic Speech Recognition

蒸馏 计算机科学 正规化(语言学) 人工智能 训练集 领域(数学分析) 语音识别 机器学习 标记数据 资源(消歧) 培训(气象学) 模式识别(心理学) 自然语言处理 数学 色谱法 计算机网络 化学 物理 气象学 数学分析
作者
Ashish Seth,Sreyan Ghosh,S. Umesh,Dinesh Manocha
标识
DOI:10.1109/icassp48485.2024.10446335
摘要

Continued self-supervised (SSL) pre-training for adapting existing SSL models to the target domain has shown to be extremely effective for low-resource Automatic Speech Recognition (ASR). This paper proposes Stable Distillation, a simple and novel approach for SSL-based continued pre-training that boosts ASR performance in the target domain where both labeled and unlabeled data are limited. Stable Distillation employs self-distillation as regularization for continued pre-training, alleviating the over-fitting issue, a common problem continued pre-training faces when the source and target domains differ. Specifically, first, we perform vanilla continued pre-training on an initial SSL pre-trained model on the target domain ASR dataset and call it the teacher. Next, we take the same initial pre-trained model as a student to perform continued pre-training while enforcing its hidden representations to be close to that of the teacher (via MSE loss). This student is then used for downstream ASR fine-tuning on the target dataset. In practice, Stable Distillation outperforms all our baselines by 0.8 - 7 WER when evaluated in various experimental settings 1 .

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
8秒前
LJJ完成签到 ,获得积分10
9秒前
9秒前
青水完成签到 ,获得积分10
15秒前
哥哥完成签到,获得积分10
15秒前
燕然都护发布了新的文献求助10
16秒前
17秒前
穆奕完成签到 ,获得积分0
17秒前
victory_liu完成签到,获得积分0
20秒前
果奶绝甜发布了新的文献求助10
23秒前
猪猪完成签到,获得积分10
30秒前
GTR的我完成签到 ,获得积分10
33秒前
千帆破浪完成签到 ,获得积分10
39秒前
czj完成签到 ,获得积分10
40秒前
大猪完成签到 ,获得积分10
43秒前
航行天下完成签到 ,获得积分10
43秒前
西西里柠檬完成签到,获得积分10
44秒前
果奶绝甜完成签到,获得积分10
44秒前
Lucas应助英俊的依凝采纳,获得10
48秒前
沂昀完成签到 ,获得积分10
50秒前
52秒前
chenmeimei2012完成签到 ,获得积分10
58秒前
ding应助六六采纳,获得10
1分钟前
温暖的寄容完成签到,获得积分10
1分钟前
1分钟前
Ting_Yang完成签到 ,获得积分10
1分钟前
十八完成签到 ,获得积分10
1分钟前
HYT完成签到 ,获得积分10
1分钟前
aikeyan完成签到,获得积分10
1分钟前
lysenko完成签到 ,获得积分10
1分钟前
1分钟前
Joey发布了新的文献求助10
1分钟前
Peter完成签到 ,获得积分10
1分钟前
六六发布了新的文献求助10
1分钟前
橙汁完成签到,获得积分10
1分钟前
LYB完成签到 ,获得积分10
1分钟前
曈曦完成签到 ,获得积分10
1分钟前
平常的三问完成签到 ,获得积分10
1分钟前
善良的冰颜完成签到 ,获得积分10
1分钟前
xingqing完成签到 ,获得积分10
1分钟前
高分求助中
Malcolm Fraser : a biography 680
Signals, Systems, and Signal Processing 610
天津市智库成果选编 600
Climate change and sports: Statistics report on climate change and sports 500
Forced degradation and stability indicating LC method for Letrozole: A stress testing guide 500
Organic Reactions Volume 118 400
A Foreign Missionary on the Long March: The Unpublished Memoirs of Arnolis Hayman of the China Inland Mission 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 化学工程 生物化学 计算机科学 物理 内科学 复合材料 催化作用 物理化学 光电子学 电极 细胞生物学 基因 无机化学
热门帖子
关注 科研通微信公众号,转发送积分 6459055
求助须知:如何正确求助?哪些是违规求助? 8268303
关于积分的说明 17621373
捐赠科研通 5528168
什么是DOI,文献DOI怎么找? 2905885
邀请新用户注册赠送积分活动 1882594
关于科研通互助平台的介绍 1727612