Pretrained Language Models for Document-Level Neural Machine Translation

机器翻译 计算机科学 自然语言处理 翻译(生物学) 人工智能 语言模型 化学 生物化学 基因 信使核糖核酸
作者
Liangyou Li,Xin Jiang,Qun Liu
出处
期刊:Cornell University - arXiv 被引量:15
标识
DOI:10.48550/arxiv.1911.03110
摘要

Previous work on document-level NMT usually focuses on limited contexts because of degraded performance on larger contexts. In this paper, we investigate on using large contexts with three main contributions: (1) Different from previous work which pertrained models on large-scale sentence-level parallel corpora, we use pretrained language models, specifically BERT, which are trained on monolingual documents; (2) We propose context manipulation methods to control the influence of large contexts, which lead to comparable results on systems using small and large contexts; (3) We introduce a multi-task training for regularization to avoid models overfitting our training corpora, which further improves our systems together with a deeper encoder. Experiments are conducted on the widely used IWSLT data sets with three language pairs, i.e., Chinese--English, French--English and Spanish--English. Results show that our systems are significantly better than three previously reported document-level systems.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
HEAUBOOK应助机灵飞兰采纳,获得10
刚刚
岁月轮回发布了新的文献求助10
刚刚
小美爱科研完成签到,获得积分10
2秒前
dawang完成签到,获得积分10
6秒前
CipherSage应助tdtk采纳,获得10
6秒前
细水de无声完成签到,获得积分10
7秒前
7秒前
haizz完成签到 ,获得积分10
10秒前
kingwill完成签到,获得积分0
11秒前
慕青应助岁月轮回采纳,获得10
11秒前
11秒前
Azyyyy发布了新的文献求助10
13秒前
zaman完成签到,获得积分10
14秒前
雪白秋莲完成签到,获得积分10
16秒前
cf2v发布了新的文献求助10
17秒前
我是老大应助赵鑫雅采纳,获得10
18秒前
19秒前
科研通AI5应助tdtk采纳,获得10
21秒前
21秒前
左丘绝山发布了新的文献求助10
22秒前
wangli完成签到,获得积分10
23秒前
务实的胡萝卜完成签到 ,获得积分10
23秒前
吨吨发布了新的文献求助10
23秒前
fareless完成签到 ,获得积分10
26秒前
27秒前
27秒前
活泼的面包完成签到 ,获得积分10
30秒前
30秒前
31秒前
赵鑫雅发布了新的文献求助10
33秒前
脑洞疼应助悲凉的睫毛膏采纳,获得10
33秒前
TheDing完成签到,获得积分10
33秒前
夜雨完成签到,获得积分10
37秒前
赵鑫雅完成签到,获得积分20
41秒前
43秒前
44秒前
零点零壹完成签到,获得积分10
44秒前
Lucas应助左丘绝山采纳,获得10
45秒前
45秒前
47秒前
高分求助中
【此为提示信息,请勿应助】请按要求发布求助,避免被关 20000
Continuum Thermodynamics and Material Modelling 2000
Encyclopedia of Geology (2nd Edition) 2000
Maneuvering of a Damaged Navy Combatant 650
Периодизация спортивной тренировки. Общая теория и её практическое применение 310
Mixing the elements of mass customisation 300
the MD Anderson Surgical Oncology Manual, Seventh Edition 300
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3779897
求助须知:如何正确求助?哪些是违规求助? 3325264
关于积分的说明 10222437
捐赠科研通 3040465
什么是DOI,文献DOI怎么找? 1668851
邀请新用户注册赠送积分活动 798805
科研通“疑难数据库(出版商)”最低求助积分说明 758563