发布文献求助

亲爱的研友该休息了！由于当前在线用户较少，发布求助请尽量完整的填写文献信息，科研通机器人24小时在线，伴您度过漫漫科研夜！身体可是革命的本钱，早点休息，好梦！

Transformers without Tears: Improving the Normalization of Self-Attention

规范化（社会学）计算机科学变压器残余物人工智能概化理论缩放比例自然语言处理机器翻译字错误率机器学习语音识别算法统计数学电压社会学人类学物理几何学量子力学

作者

Toan Nguyen,Julián Salazar

出处

期刊：Cornell University - arXiv 日期：2019-01-01 被引量：133

链接

arxiv.org datacite.orgdoi.org

标识

DOI：10.48550/arxiv.1910.05895

摘要

We evaluate three simple, normalization-centric changes to improve Transformer training. First, we show that pre-norm residual connections (PreNorm) and smaller initializations enable warmup-free, validation-based training with large learning rates. Second, we propose $\ell_2$ normalization with a single scale parameter (ScaleNorm) for faster training and better performance. Finally, we reaffirm the effectiveness of normalizing word embeddings to a fixed length (FixNorm). On five low-resource translation pairs from TED Talks-based corpora, these changes always converge, giving an average +1.1 BLEU over state-of-the-art bilingual baselines and a new 32.8 BLEU on IWSLT'15 English-Vietnamese. We observe sharper performance curves, more consistent gradient norms, and a linear relationship between activation scaling and decoder depth. Surprisingly, in the high-resource setting (WMT'14 English-German), ScaleNorm and FixNorm remain competitive but PreNorm degrades performance.

求助该文献

最长约 10秒，即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI

我的文献求助列表浏览历史

一分钟了解求助规则 | 捐赠本站 | 历史今天

活动

『应助活动周』获奖名单已公布 🔥 (2025-4-2)

更新

『中科院2025期刊分区』已更新 (2025-3-23)

更新

『即时热点』模块已上线 (2025-2-28)

科研通是完全免费的文献互助平台，具备全网最快的应助速度，最高的求助完成率。对每一个文献求助，科研通都将尽心尽力，给求助人一个满意的交代。

实时播报: 复方蛋酥卷完成签到，获得积分10

22秒前; Hello上传了应助文件

49秒前; 乐观之瑶完成签到，获得积分20

55秒前; tree发布了新的文献求助10

55秒前; 小二郎上传了应助文件

3分钟前; 李爱国的应助被gjhhh采纳，获得10

3分钟前; Lucky发布了新的文献求助10

3分钟前; 李爱国上传了应助文件

3分钟前; gjhhh发布了新的文献求助10

3分钟前; 科研通AI5的应助被范范采纳，获得10

5分钟前; 科研通AI5上传了应助文件

5分钟前; 范范发布了新的文献求助10

5分钟前; 小蘑菇的应助被科研通管家采纳，获得10

5分钟前; 小马甲上传了应助文件

5分钟前; cyh发布了新的文献求助10

5分钟前; Hello的应助被cyh采纳，获得10

6分钟前; Hello上传了应助文件

6分钟前; 卓头OvQ发布了新的文献求助10

6分钟前; 范范完成签到，获得积分10

6分钟前; 刘玉欣完成签到，获得积分10

7分钟前; 无情的君浩的应助被科研通管家采纳，获得10

7分钟前; Lucas的应助被科研通管家采纳，获得10

7分钟前; lr完成签到，获得积分10

7分钟前; 彭于晏的应助被诸茹嫣采纳，获得10

8分钟前; 彭于晏上传了应助文件

8分钟前; 诸茹嫣发布了新的文献求助10

9分钟前; 无情的君浩的应助被科研通管家采纳，获得10

9分钟前; 迷茫的一代完成签到，获得积分10

9分钟前; 光合作用完成签到，获得积分10

10分钟前; 糊涂的青烟完成签到，获得积分10

10分钟前; 月儿完成签到，获得积分10

11分钟前; 领导范儿的应助被科研通管家采纳，获得10

11分钟前; 吃点水果保护局完成签到，获得积分10

11分钟前; 巴山夜雨完成签到，获得积分10

12分钟前; FashionBoy的应助被oleskarabach采纳，获得10

12分钟前; MchemG上传了应助文件

13分钟前; MchemG上传了应助文件

13分钟前; 科研通AI5上传了应助文件

14分钟前; xiaoheshan发布了新的文献求助10

15分钟前; 思源的应助被lsx采纳，获得10

15分钟前

高分求助中: Mass producing individuality 600; Algorithmic Mathematics in Machine Learning 500; Разработка метода ускоренного контроля качества электрохромных устройств 500; A Combined Chronic Toxicity and Carcinogenicity Study of ε-Polylysine in the Rat 400; Advances in Underwater Acoustics, Structural Acoustics, and Computational Methodologies 300; NK Cell Receptors: Advances in Cell Biology and Immunology by Colton Williams (Editor) 200; Effect of clapping movement with groove rhythm on executive function: focusing on audiomotor entrainment 200

热门求助领域（近24小时）

热门帖子: 关注科研通微信公众号，转发送积分 3827282; 求助须知：如何正确求助？哪些是违规求助？ 3369624; 关于积分的说明 10456586; 捐赠科研通 3089268; 什么是DOI，文献DOI怎么找？ 1699822; 邀请新用户注册赠送积分活动 817501; 科研通“疑难数据库（出版商）”最低求助积分说明 770251

今日热心研友

遇上就这样吧

jenningseastera

请叫我风吹麦浪

注：热心度 = 本日应助数 + 本日被采纳获取积分÷10

Copyright © 2020-2025 AbleSci.COM, 科研通, All Right Reserved

科研通是非营利科研互助平台，不忘初心，为科研助力

本站互助的所有文件仅供个人学习研究用，禁止任何人把求助的所得文献进行盈利或传播

皖ICP备2024041134号-1

皖公网安备34019202002308

科研通【文献互助QQ群】：如果您有特殊求助，或发布求助超过24小时未得到应助，可加群求助，群号：941272744【点击一键加群】

科研通【志愿服务QQ群】：如果您热爱文献互助，有热心愿意为更多人服务，请加入小伙伴群，点击申请加入

关注微信服务号

科研通