发布文献求助

CRASS: A Novel Data Set and Benchmark to Test Counterfactual Reasoning of Large Language Models

反事实思维水准点（测量）集合（抽象数据类型）计算机科学数据集基线（sea）人工智能机器学习试验装置考试（生物学）实验数据数据挖掘心理学数学统计程序设计语言地理海洋学古生物学地质学生物社会心理学大地测量学

作者

Jörg Frohberg,Frank Binder

出处

期刊：Cornell University - arXiv 日期：2021-12-22 被引量：9

链接

arxiv.org arxiv.orgdoi.org

标识

DOI：10.48550/arxiv.2112.11941

摘要

We introduce the CRASS (counterfactual reasoning assessment) data set and benchmark utilizing questionized counterfactual conditionals as a novel and powerful tool to evaluate large language models. We present the data set design and benchmark that supports scoring against a crowd-validated human baseline. We test six state-of-the-art models against our benchmark. Our results show that it poses a valid challenge for these models and opens up considerable room for their improvement.

求助该文献

科研通智能强力驱动
Strongly Powered by AbleSci AI

我的文献求助列表浏览历史

一分钟了解求助规则 | 捐赠本站 | 历史今天

更新

新增更精细的自定义提醒设置 (2026-1-4)

更新

2025年影响因子查询已上线 (2025-6-18)

更新

PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台，具备全网最快的应助速度，最高的求助完成率。对每一个文献求助，科研通都将尽心尽力，给求助人一个满意的交代。

实时播报: 王修发布了新的文献求助20

刚刚; 顾君如完成签到，获得积分10

刚刚; 任全强完成签到，获得积分10

1秒前; 啊呜一口甜完成签到，获得积分0

2秒前; 三岁完成签到，获得积分10

2秒前; 小蘑菇的应助被狗腿腿采纳，获得10

2秒前; toki发布了新的文献求助10

3秒前; tangzl完成签到，获得积分10

3秒前; 胡杨柳发布了新的文献求助10

5秒前; 风信子完成签到，获得积分10

8秒前; 西山菩提发布了新的文献求助30

12秒前; 麦麦爸完成签到，获得积分10

15秒前; 长岛冰茶完成签到，获得积分10

16秒前; Duckseid完成签到，获得积分10

17秒前; 做五次缩肛运动完成签到，获得积分10

17秒前; ADcal完成签到，获得积分10

20秒前; toki完成签到，获得积分10

25秒前; 健壮的绿凝完成签到，获得积分20

26秒前; YaHaa完成签到，获得积分10

27秒前; 科研顺利完成签到，获得积分10

27秒前; 绮罗完成签到，获得积分10

28秒前; 在水一方上传了应助文件

30秒前; 嗯很好驳回了qing的应助

32秒前; 整齐铃铛完成签到，获得积分10

32秒前; 科研通AI6上传了应助文件

32秒前; 鬼王神完成签到，获得积分10

34秒前; 吃了就会胖完成签到，获得积分10

34秒前; kk发布了新的文献求助10

35秒前; Gonboo发布了新的文献求助10

36秒前; 坦率的电灯胆完成签到，获得积分10

39秒前; 森林木完成签到，获得积分10

46秒前; 星之完成签到，获得积分10

47秒前; 耸耸完成签到，获得积分10

49秒前; buno的应助被Windsyang采纳，获得10

50秒前; 巧克力完成签到，获得积分0

51秒前; 火星上誉完成签到，获得积分10

52秒前; freyaaaaa上传了应助文件

53秒前; 鳄鱼叁叁完成签到，获得积分10

53秒前; 量子星尘发布了新的文献求助10

54秒前; Windsyang完成签到，获得积分10

55秒前

高分求助中: (应助此贴封号)【重要！！请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000; Encyclopedia of Agriculture and Food Systems Third Edition 2000; Clinical Microbiology Procedures Handbook, Multi-Volume, 5th Edition 临床微生物学程序手册，多卷，第5版 2000; 人脑智能与人工智能 1000; King Tyrant 720; Silicon in Organic, Organometallic, and Polymer Chemistry 500; Principles of Plasma Discharges and Materials Processing, 3rd Edition 400

热门求助领域（近24小时）

热门帖子: 关注科研通微信公众号，转发送积分 5599928; 求助须知：如何正确求助？哪些是违规求助？ 4685747; 关于积分的说明 14839041; 捐赠科研通 4674223; 什么是DOI，文献DOI怎么找？ 2538431; 邀请新用户注册赠送积分活动 1505597; 关于科研通互助平台的介绍 1471086

今日热心研友

秀丽小猫咪

无情的踏歌

注：热心度 = 本日应助数 + 本日被采纳获取积分÷10

Copyright © 2020-2025 AbleSci.COM, 科研通, All Right Reserved

科研通是非营利科研互助平台，不忘初心，为科研助力

本站互助的所有文件仅供个人学习研究用，禁止任何人把求助的所得文献进行盈利或传播

皖ICP备2024041134号-1

皖公网安备34019202002308

科研通【文献互助QQ群】：如果您有特殊求助，或发布求助超过24小时未得到应助，可加群求助，群号：821889395【点击一键加群】

科研通【志愿服务QQ群】：如果您热爱文献互助，有热心愿意为更多人服务，请加入小伙伴群，点击申请加入

关注微信服务号

科研通