CHisIEC: An Information Extraction Corpus for Ancient Chinese History

萃取(化学) 信息抽取 中国历史 自然语言处理 历史 计算机科学 考古 中国 化学 色谱法
作者
Xuemei Tang,Zekun Deng,Qi Su,Yang Hao,Jun Wang
出处
期刊:Cornell University - arXiv
标识
DOI:10.48550/arxiv.2403.15088
摘要

Natural Language Processing (NLP) plays a pivotal role in the realm of Digital Humanities (DH) and serves as the cornerstone for advancing the structural analysis of historical and cultural heritage texts. This is particularly true for the domains of named entity recognition (NER) and relation extraction (RE). In our commitment to expediting ancient history and culture, we present the ``Chinese Historical Information Extraction Corpus''(CHisIEC). CHisIEC is a meticulously curated dataset designed to develop and evaluate NER and RE tasks, offering a resource to facilitate research in the field. Spanning a remarkable historical timeline encompassing data from 13 dynasties spanning over 1830 years, CHisIEC epitomizes the extensive temporal range and text heterogeneity inherent in Chinese historical documents. The dataset encompasses four distinct entity types and twelve relation types, resulting in a meticulously labeled dataset comprising 14,194 entities and 8,609 relations. To establish the robustness and versatility of our dataset, we have undertaken comprehensive experimentation involving models of various sizes and paradigms. Additionally, we have evaluated the capabilities of Large Language Models (LLMs) in the context of tasks related to ancient Chinese history. The dataset and code are available at \url{https://github.com/tangxuemei1995/CHisIEC}.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
zxcharm完成签到,获得积分10
刚刚
YOGA完成签到,获得积分10
刚刚
wu无完成签到,获得积分10
刚刚
msy完成签到,获得积分10
刚刚
怕黑的楷瑞完成签到 ,获得积分10
1秒前
1秒前
yao chen完成签到,获得积分10
1秒前
李若风完成签到,获得积分10
1秒前
西瓜橙子完成签到,获得积分10
1秒前
zyy发布了新的文献求助10
1秒前
心灵美从寒完成签到 ,获得积分10
2秒前
jianjiao完成签到,获得积分10
3秒前
小媛完成签到,获得积分10
3秒前
HughWang完成签到,获得积分10
3秒前
ytxstrawberry完成签到,获得积分10
4秒前
传奇3应助虾哥采纳,获得10
4秒前
友好惜儿完成签到 ,获得积分10
4秒前
tramp应助大吴克采纳,获得10
5秒前
无花果应助李若风采纳,获得10
5秒前
我是老大应助qlwko采纳,获得10
6秒前
6秒前
舒夜完成签到,获得积分10
7秒前
弱水三千完成签到,获得积分10
7秒前
TIMF14完成签到,获得积分10
7秒前
7秒前
逢强必赢完成签到,获得积分10
7秒前
TEDDY完成签到,获得积分10
7秒前
cycq023完成签到,获得积分10
7秒前
FightingW完成签到,获得积分10
8秒前
椰丝豆沙发布了新的文献求助10
8秒前
8秒前
缓慢咖啡完成签到,获得积分10
8秒前
洋洋爱吃枣完成签到 ,获得积分10
9秒前
哇哈哈哈完成签到,获得积分10
9秒前
9秒前
aaa完成签到,获得积分10
10秒前
semiaa完成签到,获得积分10
10秒前
wuzongze完成签到,获得积分10
10秒前
小胜完成签到 ,获得积分10
10秒前
lchenbio发布了新的文献求助10
11秒前
高分求助中
Technologies supporting mass customization of apparel: A pilot project 600
Chinesen in Europa – Europäer in China: Journalisten, Spione, Studenten 500
Arthur Ewert: A Life for the Comintern 500
China's Relations With Japan 1945-83: The Role of Liao Chengzhi // Kurt Werner Radtke 500
Two Years in Peking 1965-1966: Book 1: Living and Teaching in Mao's China // Reginald Hunt 500
Epigenetic Drug Discovery 500
Pathology of Laboratory Rodents and Rabbits (5th Edition) 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3816043
求助须知:如何正确求助?哪些是违规求助? 3359640
关于积分的说明 10403733
捐赠科研通 3077466
什么是DOI,文献DOI怎么找? 1690304
邀请新用户注册赠送积分活动 813741
科研通“疑难数据库(出版商)”最低求助积分说明 767781