A learning-based approach for automatic construction of domain glossary from source code and documentation

词汇表 计算机科学 文档 标识符 自然语言处理 领域(数学分析) 软件文档 人工智能 启发式 背景(考古学) 情报检索 集合(抽象数据类型) 内部文档 源代码 自然语言 软件 软件开发 程序设计语言 语言学 软件开发过程 软件建设 哲学 古生物学 数学分析 操作系统 生物 数学
作者
Chong Wang,Xin Peng,Mingwei Liu,Zhenchang Xing,Xuefang Bai,Bing Xie,Tuo Wang
标识
DOI:10.1145/3338906.3338963
摘要

A domain glossary that organizes domain-specific concepts and their aliases and relations is essential for knowledge acquisition and software development. Existing approaches use linguistic heuristics or term-frequency-based statistics to identify domain specific terms from software documentation, and thus the accuracy is often low. In this paper, we propose a learning-based approach for automatic construction of domain glossary from source code and software documentation. The approach uses a set of high-quality seed terms identified from code identifiers and natural language concept definitions to train a domain-specific prediction model to recognize glossary terms based on the lexical and semantic context of the sentences mentioning domain-specific concepts. It then merges the aliases of the same concepts to their canonical names, selects a set of explanation sentences for each concept, and identifies "is a", "has a", and "related to" relations between the concepts. We apply our approach to deep learning domain and Hadoop domain and harvest 5,382 and 2,069 concepts together with 16,962 and 6,815 relations respectively. Our evaluation validates the accuracy of the extracted domain glossary and its usefulness for the fusion and acquisition of knowledge from different documents of different projects.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
luodd完成签到 ,获得积分10
刚刚
1秒前
涂涂完成签到 ,获得积分10
1秒前
Rafa发布了新的文献求助10
1秒前
Sunny发布了新的文献求助10
2秒前
3秒前
1484发布了新的文献求助10
3秒前
4秒前
xiutang发布了新的文献求助10
6秒前
YanZhe完成签到,获得积分10
6秒前
6秒前
6秒前
天道酬勤完成签到,获得积分10
7秒前
顾矜应助我爱电催化采纳,获得10
7秒前
大个应助冷酷的风华采纳,获得10
8秒前
团团发布了新的文献求助10
9秒前
1484完成签到,获得积分10
10秒前
研友_LOqqmZ发布了新的文献求助10
11秒前
刍青完成签到,获得积分10
12秒前
liang发布了新的文献求助10
12秒前
罗布林卡应助瑶瑶爱七七采纳,获得30
14秒前
Rafa完成签到,获得积分10
14秒前
Solar energy完成签到,获得积分10
16秒前
16秒前
Hello应助研友_LOqqmZ采纳,获得20
17秒前
激昂的沂完成签到,获得积分10
18秒前
大个应助科研dog采纳,获得10
18秒前
ganson完成签到 ,获得积分10
18秒前
19秒前
fh发布了新的文献求助10
21秒前
22秒前
独特的莫言完成签到 ,获得积分10
28秒前
huijie完成签到 ,获得积分10
29秒前
29秒前
dada发布了新的文献求助10
31秒前
kk发布了新的文献求助10
33秒前
赘婿应助sunidea采纳,获得10
33秒前
小马甲应助瑶瑶爱七七采纳,获得30
34秒前
灵溪完成签到 ,获得积分10
34秒前
杨羕发布了新的文献求助10
35秒前
高分求助中
Manual of Clinical Microbiology, 4 Volume Set (ASM Books) 13th Edition 1000
Sport in der Antike 800
De arte gymnastica. The art of gymnastics 600
少脉山油柑叶的化学成分研究 530
Mechanical Methods of the Activation of Chemical Processes 510
Berns Ziesemer - Maos deutscher Topagent: Wie China die Bundesrepublik eroberte 500
Stephen R. Mackinnon - Chen Hansheng: China’s Last Romantic Revolutionary (2023) 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 有机化学 工程类 生物化学 纳米技术 物理 内科学 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 电极 光电子学 量子力学
热门帖子
关注 科研通微信公众号,转发送积分 2420584
求助须知:如何正确求助?哪些是违规求助? 2110954
关于积分的说明 5341899
捐赠科研通 1838193
什么是DOI,文献DOI怎么找? 915271
版权声明 561142
科研通“疑难数据库(出版商)”最低求助积分说明 489400