亲爱的研友该休息了!由于当前在线用户较少,发布求助请尽量完整的填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!身体可是革命的本钱,早点休息,好梦!

Comparison of text preprocessing methods

计算机科学 词汇分析 预处理器 标点符号 自然语言处理 人工智能 柠檬化 磁盘格式化 文本处理 机器翻译 数据预处理 操作系统
作者
Christine P. Chai
出处
期刊:Natural Language Engineering [Cambridge University Press]
卷期号:29 (3): 509-553 被引量:67
标识
DOI:10.1017/s1351324922000213
摘要

Abstract Text preprocessing is not only an essential step to prepare the corpus for modeling but also a key area that directly affects the natural language processing (NLP) application results. For instance, precise tokenization increases the accuracy of part-of-speech (POS) tagging, and retaining multiword expressions improves reasoning and machine translation. The text corpus needs to be appropriately preprocessed before it is ready to serve as the input to computer models. The preprocessing requirements depend on both the nature of the corpus and the NLP application itself, that is, what researchers would like to achieve from analyzing the data. Conventional text preprocessing practices generally suffice, but there exist situations where the text preprocessing needs to be customized for better analysis results. Hence, we discuss the pros and cons of several common text preprocessing methods: removing formatting, tokenization, text normalization, handling punctuation, removing stopwords, stemming and lemmatization, n-gramming, and identifying multiword expressions. Then, we provide examples of text datasets which require special preprocessing and how previous researchers handled the challenge. We expect this article to be a starting guideline on how to select and fine-tune text preprocessing methods.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
小马甲应助NN采纳,获得30
1秒前
机智的雁风完成签到,获得积分20
9秒前
21秒前
23秒前
NN发布了新的文献求助30
26秒前
山橘月发布了新的文献求助10
29秒前
NN完成签到,获得积分20
43秒前
天天开心完成签到 ,获得积分10
1分钟前
英俊的铭应助科研通管家采纳,获得10
1分钟前
橙子完成签到,获得积分10
1分钟前
橙子发布了新的文献求助10
1分钟前
柚子完成签到 ,获得积分10
1分钟前
柯一一应助橙子采纳,获得10
1分钟前
科研通AI5应助橙子采纳,获得10
1分钟前
科研通AI5应助橙子采纳,获得10
1分钟前
科研通AI5应助橙子采纳,获得10
1分钟前
科研通AI5应助橙子采纳,获得10
1分钟前
Delire完成签到,获得积分10
1分钟前
领导范儿应助hqc采纳,获得10
1分钟前
2分钟前
hqc发布了新的文献求助10
2分钟前
nhh发布了新的文献求助20
2分钟前
Lain完成签到,获得积分10
3分钟前
喔喔佳佳L完成签到 ,获得积分10
3分钟前
4分钟前
Owllight发布了新的文献求助10
4分钟前
Owllight完成签到,获得积分20
4分钟前
George完成签到,获得积分10
4分钟前
汉堡包应助hqc采纳,获得10
4分钟前
5分钟前
hqc发布了新的文献求助10
5分钟前
酷波er应助科研通管家采纳,获得10
5分钟前
碗碗豆喵完成签到 ,获得积分10
5分钟前
葱饼完成签到 ,获得积分10
5分钟前
点心完成签到,获得积分10
5分钟前
GRATE完成签到 ,获得积分10
6分钟前
科研通AI2S应助expoem采纳,获得10
6分钟前
科研搬运工完成签到,获得积分10
6分钟前
yuiip完成签到 ,获得积分10
7分钟前
冬去春来完成签到 ,获得积分10
8分钟前
高分求助中
Les Mantodea de Guyane Insecta, Polyneoptera 2500
Technologies supporting mass customization of apparel: A pilot project 450
A Field Guide to the Amphibians and Reptiles of Madagascar - Frank Glaw and Miguel Vences - 3rd Edition 400
A China diary: Peking 400
Brain and Heart The Triumphs and Struggles of a Pediatric Neurosurgeon 400
Cybersecurity Blueprint – Transitioning to Tech 400
Mixing the elements of mass customisation 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3784795
求助须知:如何正确求助?哪些是违规求助? 3330055
关于积分的说明 10244188
捐赠科研通 3045395
什么是DOI,文献DOI怎么找? 1671660
邀请新用户注册赠送积分活动 800577
科研通“疑难数据库(出版商)”最低求助积分说明 759508