EvaluLLM: LLM assisted evaluation of generative outputs

计算机科学 自然语言生成 任务(项目管理) 机器学习 生成语法 选择(遗传算法) 质量(理念) 人工智能 度量(数据仓库) 评价方法 自然语言 数据挖掘 系统工程 可靠性工程 工程类 哲学 认识论
作者
Michael Desmond,Zahra Ashktorab,Pan Qian,Casey Dugan,James M. Johnson
标识
DOI:10.1145/3640544.3645216
摘要

With the rapid improvement in large language model (LLM) capabilities, its becoming more difficult to measure the quality of outputs generated by natural language generation (NLG) systems. Conventional metrics such as BLEU and ROUGE are bound to reference data, and are generally unsuitable for tasks that require creative or diverse outputs. Human evaluation is an option, but manually evaluating generated text is difficult to do well, and expensive to scale and repeat as requirements and quality criteria change. Recent work has focused on the use of LLMs as customize-able NLG evaluators, and initial results are promising. In this demonstration we present EvaluLLM, an application designed to help practitioners setup, run and review evaluation over sets of NLG outputs, using an LLM as a custom evaluator. Evaluation is formulated as a series of choices between pairs of generated outputs conditioned on a user provided evaluation criteria. This approach simplifies the evaluation task and obviates the need for complex scoring algorithms. The system can be applied to general evaluation, human assisted evaluation, and model selection problems.

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
刚刚
Meng完成签到,获得积分10
刚刚
JOE完成签到,获得积分10
1秒前
情怀应助Qz采纳,获得10
1秒前
1秒前
2秒前
chuan发布了新的文献求助10
2秒前
maidoudou发布了新的文献求助10
3秒前
GALAXY完成签到,获得积分10
3秒前
皇帝帅哥哥完成签到,获得积分10
3秒前
郜幼枫发布了新的文献求助10
4秒前
spp完成签到 ,获得积分0
5秒前
aaaaa小柴完成签到,获得积分10
5秒前
5秒前
6秒前
6秒前
哈尼完成签到,获得积分10
6秒前
6秒前
6秒前
6秒前
7秒前
汉堡包应助Airers采纳,获得10
8秒前
爆米花应助风儿采纳,获得10
8秒前
Davin完成签到,获得积分10
8秒前
量子星尘发布了新的文献求助10
9秒前
carl发布了新的文献求助20
10秒前
ZZICU完成签到,获得积分10
10秒前
10秒前
热情蜗牛发布了新的文献求助10
10秒前
高高诗柳完成签到 ,获得积分10
11秒前
鱼雁发布了新的文献求助10
12秒前
wry完成签到,获得积分10
12秒前
潇洒诗槐发布了新的文献求助30
12秒前
阿戴发布了新的文献求助10
13秒前
炙热的诗桃关注了科研通微信公众号
13秒前
13秒前
肥宅快乐水完成签到,获得积分10
14秒前
14秒前
15秒前
张润泽发布了新的文献求助10
15秒前
高分求助中
Africanfuturism: African Imaginings of Other Times, Spaces, and Worlds 3000
Les Mantodea de Guyane: Insecta, Polyneoptera [The Mantids of French Guiana] 2000
The Oxford Encyclopedia of the History of Modern Psychology 2000
Synthesis of 21-Thioalkanoic Acids of Corticosteroids 1000
Electron microscopy study of magnesium hydride (MgH2) for Hydrogen Storage 1000
Structural Equation Modeling of Multiple Rater Data 700
 Introduction to Comparative Public Administration Administrative Systems and Reforms in Europe, Third Edition 3rd edition 590
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3886385
求助须知:如何正确求助?哪些是违规求助? 3428538
关于积分的说明 10761163
捐赠科研通 3153324
什么是DOI,文献DOI怎么找? 1741041
邀请新用户注册赠送积分活动 840478
科研通“疑难数据库(出版商)”最低求助积分说明 785383