MASA: Motion-aware Masked Autoencoder with Semantic Alignment for Sign Language Recognition

计算机科学 手语 自编码 人工智能 自然语言处理 符号(数学) 运动(物理) 模式识别(心理学) 语音识别 语言学 数学 深度学习 数学分析 哲学
作者
Weichao Zhao,Hezhen Hu,Wengang Zhou,Yunyao Mao,Min Wang,Houqiang Li
出处
期刊:Cornell University - arXiv
标识
DOI:10.48550/arxiv.2405.20666
摘要

Sign language recognition (SLR) has long been plagued by insufficient model representation capabilities. Although current pre-training approaches have alleviated this dilemma to some extent and yielded promising performance by employing various pretext tasks on sign pose data, these methods still suffer from two primary limitations: 1) Explicit motion information is usually disregarded in previous pretext tasks, leading to partial information loss and limited representation capability. 2) Previous methods focus on the local context of a sign pose sequence, without incorporating the guidance of the global meaning of lexical signs. To this end, we propose a Motion-Aware masked autoencoder with Semantic Alignment (MASA) that integrates rich motion cues and global semantic information in a self-supervised learning paradigm for SLR. Our framework contains two crucial components, i.e., a motion-aware masked autoencoder (MA) and a momentum semantic alignment module (SA). Specifically, in MA, we introduce an autoencoder architecture with a motion-aware masked strategy to reconstruct motion residuals of masked frames, thereby explicitly exploring dynamic motion cues among sign pose sequences. Moreover, in SA, we embed our framework with global semantic awareness by aligning the embeddings of different augmented samples from the input sequence in the shared latent space. In this way, our framework can simultaneously learn local motion cues and global semantic features for comprehensive sign language representation. Furthermore, we conduct extensive experiments to validate the effectiveness of our method, achieving new state-of-the-art performance on four public benchmarks.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
巴啦啦能量完成签到 ,获得积分10
2秒前
madison完成签到 ,获得积分10
4秒前
wwj1009完成签到 ,获得积分10
14秒前
含蓄文博完成签到 ,获得积分10
20秒前
重要的幻然完成签到,获得积分10
21秒前
笨笨青筠完成签到 ,获得积分10
23秒前
跳跃的冷卉完成签到 ,获得积分10
24秒前
如意的馒头完成签到 ,获得积分10
29秒前
哒哒哒哒完成签到,获得积分10
31秒前
飘逸问兰发布了新的文献求助10
37秒前
上官完成签到 ,获得积分10
42秒前
毛哥看文献完成签到 ,获得积分10
46秒前
飘逸问兰完成签到,获得积分10
51秒前
chentong完成签到 ,获得积分10
51秒前
ufofly730完成签到 ,获得积分10
52秒前
SciGPT应助飘逸问兰采纳,获得10
57秒前
57秒前
薛微有点甜完成签到 ,获得积分10
1分钟前
开拖拉机的医学僧完成签到 ,获得积分10
1分钟前
轻松的纸鹤完成签到,获得积分10
1分钟前
加贝完成签到 ,获得积分10
1分钟前
zzy发布了新的文献求助10
1分钟前
zhaogl完成签到,获得积分10
1分钟前
1分钟前
JJ完成签到 ,获得积分10
1分钟前
1分钟前
倪小呆完成签到 ,获得积分10
1分钟前
wonwojo完成签到 ,获得积分10
1分钟前
John完成签到 ,获得积分10
1分钟前
eterny完成签到,获得积分10
1分钟前
幸福完成签到 ,获得积分20
1分钟前
xue112完成签到 ,获得积分10
1分钟前
雪儿完成签到 ,获得积分10
1分钟前
firewood完成签到,获得积分10
1分钟前
在水一方应助科研通管家采纳,获得10
1分钟前
cdercder应助科研通管家采纳,获得10
1分钟前
cdercder应助科研通管家采纳,获得10
1分钟前
迈克老狼完成签到 ,获得积分10
1分钟前
美好灵寒完成签到 ,获得积分10
1分钟前
曾经小伙完成签到 ,获得积分10
1分钟前
高分求助中
Introduction to Strong Mixing Conditions Volumes 1-3 500
Tip60 complex regulates eggshell formation and oviposition in the white-backed planthopper, providing effective targets for pest control 400
Optical and electric properties of monocrystalline synthetic diamond irradiated by neutrons 320
共融服務學習指南 300
Essentials of Pharmacoeconomics: Health Economics and Outcomes Research 3rd Edition. by Karen Rascati 300
Peking Blues // Liao San 300
Political Ideologies Their Origins and Impact 13 edition 240
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3800967
求助须知:如何正确求助?哪些是违规求助? 3346553
关于积分的说明 10329541
捐赠科研通 3063068
什么是DOI,文献DOI怎么找? 1681330
邀请新用户注册赠送积分活动 807474
科研通“疑难数据库(出版商)”最低求助积分说明 763721