Automatic sentence segmentation for classical Chinese: The Spring and Autumn Annals as an example

判决 计算机科学 分割 人工智能 自然语言处理 特征(语言学) 条件随机场 标点符号 编码器 语言学 哲学 操作系统
作者
Wenjie Fan,Dongbo Wang,Shuiqing Huang
出处
期刊:Digital Scholarship in the Humanities [Oxford University Press]
卷期号:38 (3): 1067-1077 被引量:1
标识
DOI:10.1093/llc/fqad016
摘要

Abstract There exists no sentence boundary in most classical Chinese literature texts. Since it is difficult to read literature of this kind, experts in literature or linguistics would segment the sentence manually. This article explores the effectiveness of classical Chinese sentence segmentation method so as to provide a reference for classical Chinese punctuation. On the basis of the machine learning methods, we chose three components of machine learning, namely models, tagging schemes, and features, to compare the learning results. The models include conditional random field (CRF) models, long short term memory (LSTM) models, BiLSTM–CRF models, and three Bidirectional Encoder Representation from Transformers (BERT) models. There are five tagging schemes in this article and three features including the statistical feature, Guangyun, and Fanqie. Finally, the performance of the combined feature template is evaluated by ten-fold cross-validation on four classical Chinese texts in different genres. The SikuBERT model is proved to be the most effective model for sentence segmentation at present. Different tagging schemes and various features are introduced. The results show that 5-tag-J tagging schemes can improve performance. Statistical feature, as an important clue for classical Chinese sentence segmentation, is useful in related tasks, but Guangyun and Fanqie have little impact. Other important factors of sentence segmentation are genres and writing styles.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
鹏826完成签到 ,获得积分10
1秒前
666完成签到 ,获得积分10
1秒前
微笑的小霸王完成签到,获得积分10
1秒前
忐忑的草丛完成签到,获得积分10
4秒前
俏皮元珊完成签到 ,获得积分10
5秒前
cc完成签到 ,获得积分10
7秒前
木木完成签到 ,获得积分10
7秒前
五月完成签到 ,获得积分10
11秒前
YJ完成签到,获得积分10
11秒前
所所应助dejavu采纳,获得30
12秒前
我很好完成签到 ,获得积分10
15秒前
长孙归尘完成签到 ,获得积分10
16秒前
邓炎林完成签到 ,获得积分10
17秒前
19秒前
19秒前
冰汤圆完成签到 ,获得积分10
19秒前
qwe完成签到,获得积分10
22秒前
细心笑卉完成签到 ,获得积分10
24秒前
潇洒迎夏发布了新的文献求助10
24秒前
jzmupyj完成签到,获得积分10
25秒前
26秒前
咖啡味椰果完成签到 ,获得积分10
26秒前
潇洒迎夏完成签到,获得积分20
33秒前
gnr2000发布了新的文献求助10
34秒前
jzmulyl完成签到,获得积分10
35秒前
elsa622完成签到 ,获得积分10
37秒前
Li完成签到,获得积分10
38秒前
sunflower完成签到,获得积分0
42秒前
风信子deon01完成签到,获得积分10
48秒前
001完成签到,获得积分10
50秒前
火星上的雨柏完成签到,获得积分10
50秒前
Yx完成签到,获得积分10
55秒前
56秒前
畅快山兰完成签到 ,获得积分10
56秒前
嘟嘟雯完成签到 ,获得积分10
57秒前
木又完成签到 ,获得积分10
57秒前
李健的小迷弟应助wowser采纳,获得30
58秒前
你要学好完成签到 ,获得积分10
1分钟前
1分钟前
dejavu发布了新的文献求助10
1分钟前
高分求助中
Les Mantodea de Guyane Insecta, Polyneoptera 2500
Technologies supporting mass customization of apparel: A pilot project 450
A Field Guide to the Amphibians and Reptiles of Madagascar - Frank Glaw and Miguel Vences - 3rd Edition 400
Brain and Heart The Triumphs and Struggles of a Pediatric Neurosurgeon 400
Cybersecurity Blueprint – Transitioning to Tech 400
Mixing the elements of mass customisation 400
Периодизация спортивной тренировки. Общая теория и её практическое применение 310
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3784840
求助须知:如何正确求助?哪些是违规求助? 3330107
关于积分的说明 10244337
捐赠科研通 3045477
什么是DOI,文献DOI怎么找? 1671691
邀请新用户注册赠送积分活动 800613
科研通“疑难数据库(出版商)”最低求助积分说明 759557