Can ChatGPT evaluate research quality?

严厉 独创性 质量(理念) 任务(项目管理) 考试(生物学) 卓越 样品(材料) 样本量测定 相关性 计算机科学 心理学 管理科学 情报检索 应用心理学 统计 数学 社会心理学 管理 政治学 工程类 古生物学 哲学 化学 几何学 认识论 色谱法 创造力 法学 经济 生物
作者
Mike Thelwall
出处
期刊:Journal of Data and Information Science [Chinese Academy of Sciences]
卷期号:9 (2): 1-21 被引量:2
标识
DOI:10.2478/jdis-2024-0013
摘要

Abstract Purpose Assess whether ChatGPT 4.0 is accurate enough to perform research evaluations on journal articles to automate this time-consuming task. Design/methodology/approach Test the extent to which ChatGPT-4 can assess the quality of journal articles using a case study of the published scoring guidelines of the UK Research Excellence Framework (REF) 2021 to create a research evaluation ChatGPT. This was applied to 51 of my own articles and compared against my own quality judgements. Findings ChatGPT-4 can produce plausible document summaries and quality evaluation rationales that match the REF criteria. Its overall scores have weak correlations with my self-evaluation scores of the same documents (averaging r=0.281 over 15 iterations, with 8 being statistically significantly different from 0). In contrast, the average scores from the 15 iterations produced a statistically significant positive correlation of 0.509. Thus, averaging scores from multiple ChatGPT-4 rounds seems more effective than individual scores. The positive correlation may be due to ChatGPT being able to extract the author’s significance, rigour, and originality claims from inside each paper. If my weakest articles are removed, then the correlation with average scores (r=0.200) falls below statistical significance, suggesting that ChatGPT struggles to make fine-grained evaluations. Research limitations The data is self-evaluations of a convenience sample of articles from one academic in one field. Practical implications Overall, ChatGPT does not yet seem to be accurate enough to be trusted for any formal or informal research quality evaluation tasks. Research evaluators, including journal editors, should therefore take steps to control its use. Originality/value This is the first published attempt at post-publication expert review accuracy testing for ChatGPT.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
2秒前
小田发布了新的文献求助10
3秒前
冷静如柏完成签到,获得积分10
5秒前
H_dd发布了新的文献求助10
6秒前
营养师在伊犁跳舞完成签到 ,获得积分10
7秒前
lyx完成签到,获得积分10
8秒前
Misea发布了新的文献求助10
9秒前
qiao应助11采纳,获得10
10秒前
15秒前
笨笨忘幽发布了新的文献求助10
16秒前
lindsay完成签到,获得积分10
18秒前
lin完成签到 ,获得积分10
20秒前
20秒前
H_dd发布了新的文献求助10
21秒前
情红锐完成签到,获得积分10
22秒前
煊陌完成签到,获得积分10
25秒前
深情安青应助Misea采纳,获得10
25秒前
丰富的绮波完成签到 ,获得积分10
25秒前
30秒前
褪色完成签到,获得积分10
32秒前
FashionBoy应助H_dd采纳,获得10
33秒前
bu完成签到,获得积分10
36秒前
jeeya发布了新的文献求助30
37秒前
misa完成签到 ,获得积分10
37秒前
香蕉觅云应助手可摘柠檬采纳,获得10
39秒前
40秒前
英俊的铭应助xwtx采纳,获得10
40秒前
短巷完成签到 ,获得积分10
43秒前
NexusExplorer应助呆萌香菇采纳,获得10
43秒前
Sideways发布了新的文献求助10
47秒前
47秒前
科研通AI5应助马鲛采纳,获得10
51秒前
51秒前
53秒前
斯文败类应助乘风破浪采纳,获得10
53秒前
55秒前
YANGTIAN完成签到,获得积分10
58秒前
今夕是何年完成签到 ,获得积分10
58秒前
喂喂喂威完成签到 ,获得积分10
59秒前
马鲛发布了新的文献求助10
1分钟前
高分求助中
【此为提示信息,请勿应助】请按要求发布求助,避免被关 20000
Continuum Thermodynamics and Material Modelling 2000
Encyclopedia of Geology (2nd Edition) 2000
105th Edition CRC Handbook of Chemistry and Physics 1600
Maneuvering of a Damaged Navy Combatant 650
Периодизация спортивной тренировки. Общая теория и её практическое применение 310
Mixing the elements of mass customisation 300
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3779743
求助须知:如何正确求助?哪些是违规求助? 3325186
关于积分的说明 10221815
捐赠科研通 3040328
什么是DOI,文献DOI怎么找? 1668715
邀请新用户注册赠送积分活动 798775
科研通“疑难数据库(出版商)”最低求助积分说明 758535