亲爱的研友该休息了!由于当前在线用户较少,发布求助请尽量完整的填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!身体可是革命的本钱,早点休息,好梦!

SpeechFormer++: A Hierarchical Efficient Framework for Paralinguistic Speech Processing

副语言 计算机科学 语音识别 编码器 变压器 语音处理 自然语言处理 语音编码 人工智能 沟通 物理 量子力学 电压 社会学 操作系统
作者
Weidong Chen,Xiaofen Xing,Xiangmin Xu,Jianxin Pang,Lan Du
出处
期刊:IEEE/ACM transactions on audio, speech, and language processing [Institute of Electrical and Electronics Engineers]
卷期号:31: 775-788 被引量:34
标识
DOI:10.1109/taslp.2023.3235194
摘要

Paralinguistic speech processing is important in addressing many issues, such as sentiment and neurocognitive disorder analyses. Recently, Transformer has achieved remarkable success in the natural language processing field and has demonstrated its adaptation to speech. However, previous works on Transformer in the speech field have not incorporated the properties of speech, leaving the full potential of Transformer unexplored. In this paper, we consider the characteristics of speech and propose a general structure-based framework, called SpeechFormer++, for paralinguistic speech processing. More concretely, following the component relationship in the speech signal, we design a unit encoder to model the intra- and inter-unit information (i.e., frames, phones, and words) efficiently. According to the hierarchical relationship, we utilize merging blocks to generate features at different granularities, which is consistent with the structural pattern in the speech signal. Moreover, a word encoder is introduced to integrate word-grained features into each unit encoder, which effectively balances fine-grained and coarse-grained information. SpeechFormer++ is evaluated on the speech emotion recognition (IEMOCAP & MELD), depression classification (DAIC-WOZ) and Alzheimer's disease detection (Pitt) tasks. The results show that SpeechFormer++ outperforms the standard Transformer while greatly reducing the computational cost. Furthermore, it delivers superior results compared to the state-of-the-art approaches.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
fuueer完成签到 ,获得积分0
1秒前
三人水明完成签到 ,获得积分10
18秒前
顺利问玉完成签到 ,获得积分10
39秒前
李健的粉丝团团长应助feng采纳,获得10
1分钟前
1分钟前
可千万不要躺平呀完成签到,获得积分10
2分钟前
斯文败类应助张志伟采纳,获得10
2分钟前
我爱陶子完成签到 ,获得积分10
2分钟前
xiaozou55完成签到 ,获得积分10
2分钟前
邢夏之完成签到 ,获得积分10
2分钟前
2分钟前
张志伟发布了新的文献求助10
2分钟前
科目三应助张志伟采纳,获得10
3分钟前
3分钟前
feng发布了新的文献求助10
3分钟前
5分钟前
标致碧发布了新的文献求助20
5分钟前
6分钟前
FL发布了新的文献求助10
6分钟前
6分钟前
小二郎应助科研通管家采纳,获得10
6分钟前
爆米花应助科研通管家采纳,获得10
6分钟前
FL完成签到,获得积分10
6分钟前
幽默的忆霜完成签到 ,获得积分10
6分钟前
8分钟前
8分钟前
橘橘橘子皮完成签到 ,获得积分10
8分钟前
田様应助科研通管家采纳,获得10
8分钟前
完美世界应助强强采纳,获得10
8分钟前
8分钟前
强强发布了新的文献求助10
8分钟前
heisa完成签到,获得积分10
8分钟前
蝴蝶应助强强采纳,获得10
9分钟前
诸葛小哥哥完成签到 ,获得积分10
10分钟前
科研通AI5应助科研通管家采纳,获得10
10分钟前
pcr163应助Artin采纳,获得50
10分钟前
hairgod完成签到,获得积分10
11分钟前
yinqinglu发布了新的文献求助10
11分钟前
zhen发布了新的文献求助10
13分钟前
季风气候完成签到 ,获得积分10
13分钟前
高分求助中
Mass producing individuality 600
Разработка метода ускоренного контроля качества электрохромных устройств 500
A Combined Chronic Toxicity and Carcinogenicity Study of ε-Polylysine in the Rat 400
Advances in Underwater Acoustics, Structural Acoustics, and Computational Methodologies 300
Effect of deresuscitation management vs. usual care on ventilator-free days in patients with abdominal septic shock 200
Erectile dysfunction From bench to bedside 200
Advanced Introduction to Behavioral Law and Economics 200
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3824996
求助须知:如何正确求助?哪些是违规求助? 3367312
关于积分的说明 10445211
捐赠科研通 3086684
什么是DOI,文献DOI怎么找? 1698167
邀请新用户注册赠送积分活动 816655
科研通“疑难数据库(出版商)”最低求助积分说明 769880