Chinese Spelling Correction as Rephrasing Language Model

计算机科学 拼写 判决 自然语言处理 人工智能 性格(数学) 语言模型 瓶颈 边距(机器学习) 语音识别 语言学 机器学习 数学 几何学 哲学 嵌入式系统
作者
Linfeng Liu,Hongqiu Wu,Hai Zhao
出处
期刊:Cornell University - arXiv
标识
DOI:10.48550/arxiv.2308.08796
摘要

This paper studies Chinese Spelling Correction (CSC), which aims to detect and correct the potential spelling errors in a given sentence. Current state-of-the-art methods regard CSC as a sequence tagging task and fine-tune BERT-based models on sentence pairs. However, we note a critical flaw in the process of tagging one character to another, that the correction is excessively conditioned on the error. This is opposite from human mindset, where individuals rephrase the complete sentence based on its semantics, rather than solely on the error patterns memorized before. Such a counter-intuitive learning process results in the bottleneck of generalizability and transferability of machine spelling correction. To address this, we propose Rephrasing Language Model (ReLM), where the model is trained to rephrase the entire sentence by infilling additional slots, instead of character-to-character tagging. This novel training paradigm achieves the new state-of-the-art results across fine-tuned and zero-shot CSC benchmarks, outperforming previous counterparts by a large margin. Our method also learns transferable language representation when CSC is jointly trained with other tasks.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
小唐完成签到,获得积分10
1秒前
夏夜完成签到 ,获得积分10
1秒前
e746700020发布了新的文献求助10
2秒前
Owen应助蓝白采纳,获得10
2秒前
4秒前
勤劳元瑶完成签到,获得积分10
5秒前
韭菜完成签到,获得积分20
5秒前
斯文败类应助ky采纳,获得10
6秒前
孤独雨梅完成签到,获得积分10
7秒前
8秒前
往返完成签到,获得积分10
12秒前
12秒前
hhh123完成签到,获得积分10
12秒前
找文献呢完成签到,获得积分10
13秒前
13秒前
废羊羊完成签到 ,获得积分10
13秒前
14秒前
韭菜盒子完成签到,获得积分20
15秒前
等我吃胖完成签到,获得积分10
15秒前
大糖糕僧完成签到,获得积分10
15秒前
halo完成签到,获得积分10
15秒前
机灵冬灵发布了新的文献求助10
16秒前
17秒前
房山芙发布了新的文献求助10
19秒前
abab小王完成签到,获得积分10
20秒前
吱吱吱完成签到 ,获得积分10
21秒前
ky发布了新的文献求助10
22秒前
24秒前
DE完成签到,获得积分10
24秒前
24秒前
丘比特应助科研通管家采纳,获得10
24秒前
科研通AI2S应助科研通管家采纳,获得10
24秒前
123456完成签到 ,获得积分10
26秒前
张老师完成签到,获得积分10
26秒前
明亮巨人完成签到 ,获得积分10
27秒前
Yuuuu完成签到 ,获得积分10
27秒前
淳于白凝完成签到,获得积分10
28秒前
完犊子完成签到,获得积分20
28秒前
1793480753完成签到 ,获得积分10
29秒前
ky完成签到,获得积分20
29秒前
高分求助中
Les Mantodea de Guyane: Insecta, Polyneoptera [The Mantids of French Guiana] 2500
Future Approaches to Electrochemical Sensing of Neurotransmitters 1000
Electron microscopy study of magnesium hydride (MgH2) for Hydrogen Storage 1000
Finite Groups: An Introduction 800
壮语核心名词的语言地图及解释 700
ВЕРНЫЙ ДРУГ КИТАЙСКОГО НАРОДА СЕРГЕЙ ПОЛЕВОЙ 500
ВОЗОБНОВЛЕН ВЫПУСК ЖУРНАЛА "КИТАЙ" НА РУССКОМ ЯЗЫКЕ 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3907032
求助须知:如何正确求助?哪些是违规求助? 3452408
关于积分的说明 10870351
捐赠科研通 3178303
什么是DOI,文献DOI怎么找? 1755892
邀请新用户注册赠送积分活动 849170
科研通“疑难数据库(出版商)”最低求助积分说明 791387