Using a Chinese Lexicon to Learn Sense Embeddings and Measure Semantic Similarity

计算机科学 多义 自然语言处理 人工智能 语义相似性 文字嵌入 词典 学期 相似性(几何) 词(群论) 嵌入 语义压缩 语义计算 语言学 语义网 语义技术 任务(项目管理) 管理 经济 哲学 图像(数学)
作者
Zhuo Zhuang,Yuquan Chen
出处
期刊:Lecture Notes in Computer Science 卷期号:: 197-208
标识
DOI:10.1007/978-3-030-01716-3_17
摘要

Word embeddings have recently been widely used to model words in Natural Language Processing (NLP) tasks including semantic similarity measurement. However, word embeddings are not able to capture polysemy, because a polysemous word is represented by a single vector. To address this problem, learning multiple embedding vectors for different senses of a word is necessary and intuitive. We present a novel approach based on a Chinese lexicon to learn sense embeddings. Every sense is represented by a vector that consists of semantic contributions made by senses explaining it. To make full use of the lexicon’s advantages and address its drawbacks, we perform representation expansion to make sparse embedding vectors dense and disambiguate in gloss polysemous words by semantic contribution allocation. Thanks to the use of an intuitive way of noise filtering, we achieve noticeable improvement both in dimensionality reduction and semantic similarity measurement. We perform experiments on a translated version of Miller-Charles dataset and report state-of-the-art performance on semantic similarity measurement. We also apply our approach to SemEval-2012 Task4: Evaluating Chinese Word Similarity, which uses a translated version of wordsim353 as the standard dataset, and our approach also noticeably outperforms conventional approaches.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
够了完成签到 ,获得积分10
4秒前
7秒前
圆圆圆完成签到,获得积分10
11秒前
LJJ发布了新的文献求助10
11秒前
程哲瀚完成签到,获得积分10
12秒前
大王具足虫完成签到,获得积分0
13秒前
xue112完成签到 ,获得积分10
15秒前
15秒前
迅速的晟睿完成签到,获得积分20
16秒前
Xinxin完成签到 ,获得积分10
16秒前
结实的德地完成签到 ,获得积分10
17秒前
20秒前
棒棒完成签到 ,获得积分10
24秒前
27秒前
余红完成签到 ,获得积分10
28秒前
29秒前
orange完成签到 ,获得积分10
29秒前
陈酉酉啊完成签到,获得积分10
30秒前
32秒前
冷酷尔琴发布了新的文献求助10
33秒前
Denmark发布了新的文献求助10
36秒前
陈小二完成签到,获得积分10
37秒前
orchid完成签到,获得积分10
43秒前
LIU完成签到,获得积分10
48秒前
Hello应助紧张的海露采纳,获得10
50秒前
英勇大神发布了新的文献求助10
50秒前
arong完成签到,获得积分10
53秒前
是我呀小夏完成签到 ,获得积分10
55秒前
57秒前
Dawn完成签到 ,获得积分10
57秒前
58秒前
情怀应助LIU采纳,获得10
1分钟前
1分钟前
evefei发布了新的文献求助10
1分钟前
Kelly1426完成签到,获得积分10
1分钟前
英勇大神完成签到,获得积分20
1分钟前
Yang完成签到,获得积分10
1分钟前
小叶完成签到 ,获得积分10
1分钟前
领导范儿应助眼药水采纳,获得10
1分钟前
xiaowei666完成签到,获得积分10
1分钟前
高分求助中
Un calendrier babylonien des travaux, des signes et des mois: Séries iqqur îpuš 1036
Sustainable Land Management: Strategies to Cope with the Marginalisation of Agriculture 1000
Corrosion and Oxygen Control 600
Python Programming for Linguistics and Digital Humanities: Applications for Text-Focused Fields 500
Heterocyclic Stilbene and Bibenzyl Derivatives in Liverworts: Distribution, Structures, Total Synthesis and Biological Activity 500
重庆市新能源汽车产业大数据招商指南(两链两图两池两库两平台两清单两报告) 400
Division and square root. Digit-recurrence algorithms and implementations 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 有机化学 工程类 生物化学 纳米技术 物理 内科学 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 电极 光电子学 量子力学
热门帖子
关注 科研通微信公众号,转发送积分 2546270
求助须知:如何正确求助?哪些是违规求助? 2175702
关于积分的说明 5600512
捐赠科研通 1896445
什么是DOI,文献DOI怎么找? 946285
版权声明 565379
科研通“疑难数据库(出版商)”最低求助积分说明 503557