亲爱的研友该休息了!由于当前在线用户较少,发布求助请尽量完整地填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!身体可是革命的本钱,早点休息,好梦!

Key cluster identification in literary texts using and comparing multiple measures: an exploratory comparative study and its implications

钥匙(锁) 鉴定(生物学) 探索性研究 星团(航天器) 计算机科学 语言学 社会学 哲学 社会科学 计算机安全 生物 植物 程序设计语言
作者
Hongwei Zhan
出处
期刊:Digital Scholarship in the Humanities [Oxford University Press]
标识
DOI:10.1093/llc/fqaf031
摘要

Abstract Various methods have been developed for identifying keywords/key clusters. Most of these methods use a reference corpus to identify keywords/key clusters in the target corpus although a few studies have employed methods for key word/cluster identification without the use of a reference corpus. However, little research appears to have been done comparing the effectiveness of these methods, especially when they are used for identifying key clusters, a relatively new concept than keywords. To address this research gap, this study compares the accuracy and effectiveness of the following five methods in identifying key clusters in a corpus of Charles Dickens’s novels without the use of a reference corpus: TF (Term Frequency, a common frequency measure), DPnorm (Deviation of Proportions normalized, a robust and effective dispersion measure), and PPMI (Positive Pointwise Information, a widely used association strength measure), and TF-IDF (Term Frequency—Inverse document, a blended method that considers both term frequency and inverse document frequency), and TF-DPnorm (Term Frequency-DP normalized), a self-developed blended method that factors in both frequency and normalized dispersion. With the top key clusters that Mahlberg (2007) identified in the same Dickens’s corpus of novels as the benchmark, the results of the comparison show that, of the five methods, the self-developed TF-DPnorm method and the TF method are the most accurate and effective in identifying key clusters in literary texts when no reference corpus is used. Reasons for the differences across the methods are explored and research implications are also discussed.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
1秒前
wuran发布了新的文献求助30
6秒前
CipherSage应助wuran采纳,获得10
13秒前
20秒前
21秒前
26秒前
36秒前
moon发布了新的文献求助10
38秒前
科研通AI2S应助读书的时候采纳,获得10
38秒前
wuran发布了新的文献求助10
40秒前
CipherSage应助moon采纳,获得10
42秒前
所所应助wuran采纳,获得10
46秒前
1分钟前
wuran发布了新的文献求助10
1分钟前
1分钟前
LH完成签到,获得积分10
1分钟前
大壮发布了新的文献求助10
2分钟前
小二郎应助读书的时候采纳,获得10
2分钟前
Alicia完成签到 ,获得积分10
2分钟前
科研通AI2S应助读书的时候采纳,获得10
2分钟前
wuran发布了新的文献求助10
2分钟前
万能图书馆应助wuran采纳,获得10
2分钟前
星辰大海应助读书的时候采纳,获得10
3分钟前
科研通AI2S应助科研通管家采纳,获得10
3分钟前
上官若男应助读书的时候采纳,获得10
3分钟前
3分钟前
wuran发布了新的文献求助10
3分钟前
田様应助读书的时候采纳,获得10
3分钟前
Eeeee完成签到,获得积分10
3分钟前
wuran发布了新的文献求助10
3分钟前
Owen应助读书的时候采纳,获得10
3分钟前
4分钟前
乐乐应助读书的时候采纳,获得10
4分钟前
田様应助执着的忆雪采纳,获得10
4分钟前
MA发布了新的文献求助10
4分钟前
4分钟前
MA完成签到,获得积分10
4分钟前
FashionBoy应助读书的时候采纳,获得10
4分钟前
我是老大应助wuran采纳,获得10
4分钟前
5分钟前
高分求助中
Semantics for Latin: An Introduction 1055
Plutonium Handbook 1000
Three plays : drama 1000
International Code of Nomenclature for algae, fungi, and plants (Madrid Code) (Regnum Vegetabile) 1000
Psychology Applied to Teaching 14th Edition 600
Robot-supported joining of reinforcement textiles with one-sided sewing heads 600
Apiaceae Himalayenses. 2 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 冶金 细胞生物学 免疫学
热门帖子
关注 科研通微信公众号,转发送积分 4099074
求助须知:如何正确求助?哪些是违规求助? 3636635
关于积分的说明 11525682
捐赠科研通 3346398
什么是DOI,文献DOI怎么找? 1839241
邀请新用户注册赠送积分活动 906499
科研通“疑难数据库(出版商)”最低求助积分说明 823819