Topic Modeling on Document Networks With Dirichlet Optimal Transport Barycenter

计算机科学 潜在Dirichlet分配 主题模型 可解释性 情报检索 语义学(计算机科学) 杠杆(统计) 人工智能 理论计算机科学 自然语言处理 程序设计语言
作者
Delvin Ce Zhang,Hady W. Lauw
出处
期刊:IEEE Transactions on Knowledge and Data Engineering [IEEE Computer Society]
卷期号:36 (3): 1328-1340 被引量:7
标识
DOI:10.1109/tkde.2023.3303465
摘要

Text documents are often interconnected in a network structure, e.g., academic papers via citations, Web pages via hyperlinks. On the one hand, though Graph Neural Networks (GNNs) have shown promising ability to derive effective embeddings for such networked documents, they do not assume a latent topic structure and result in uninterpretable embeddings. On the other hand, topic models can infer semantically interpretable topic distributions for documents by associating each topic with a group of understandable key words. However, most topic models mainly focus on plain text within documents and fail to leverage network structure across documents. Network connectivity reveals topic similarity between linked documents, and modeling it could uncover meaningful semantics. Motivated by above two challenges, in this paper, we propose a GNN-based neural topic model that both captures network connectivity and derives semantically interpretable topic distributions for networked documents. For network modeling, we build the model based on the theory of Optimal Transport Barycenter, which captures network structure by allowing the topic distribution of a document to generate the content of its linked neighbors. For semantic interpretability, we extend optimal transport by incorporating semantically related words in the embedding space. Since Dirichlet prior in Latent Dirichlet Allocation successfully improves topic quality, we also analyze Dirichlet as an optimal transport prior distribution to improve topic interpretability. We design rejection sampling to simulate Dirichlet distribution. Extensive experiments on document classification, clustering, link prediction, and topic analysis verify the effectiveness of our model.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
1秒前
1秒前
领导范儿应助畅快的半仙采纳,获得10
2秒前
2秒前
3秒前
3秒前
3秒前
做实验的猫应助毛豆爸爸采纳,获得10
3秒前
语梦发布了新的文献求助10
4秒前
Lil_Bear完成签到,获得积分10
4秒前
嘤鸣完成签到,获得积分10
4秒前
蓝天应助cheng采纳,获得10
4秒前
LvCR完成签到 ,获得积分10
4秒前
wasweat完成签到,获得积分10
4秒前
斯沃特完成签到,获得积分10
5秒前
5秒前
wang完成签到,获得积分10
5秒前
5秒前
6秒前
小邹要努力完成签到,获得积分10
6秒前
英俊的铭应助饭团采纳,获得10
6秒前
XXHH发布了新的文献求助10
6秒前
章鱼完成签到,获得积分10
6秒前
哈哈哈发布了新的文献求助10
6秒前
liyukun完成签到 ,获得积分10
6秒前
4Y完成签到 ,获得积分10
6秒前
xfyxxh发布了新的文献求助10
7秒前
Akim应助乐观惜萱采纳,获得10
7秒前
胡师兄完成签到,获得积分10
8秒前
wei完成签到,获得积分20
8秒前
8秒前
自信花瓣发布了新的文献求助10
8秒前
万能图书馆应助缥缈羞花采纳,获得10
8秒前
8秒前
ZAY发布了新的文献求助10
9秒前
lll发布了新的文献求助10
9秒前
10秒前
可爱的函函应助秀儿采纳,获得10
10秒前
丘比特应助1111采纳,获得10
10秒前
yx发布了新的文献求助10
11秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Developing Genetic Editing Tools for Lysobacter 2000
卤化钙钛矿人工突触的研究 2000
Моделирование процессов самоорганизации в кристаллообразующих системах 1000
History of U.S. Space Surveillance and Satellite Cataloging 1000
Adhesion Science: Principles & Practice 800
Signals, Systems, and Signal Processing 610
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 化学工程 生物化学 计算机科学 物理 内科学 复合材料 催化作用 物理化学 光电子学 电极 细胞生物学 基因 无机化学
热门帖子
关注 科研通微信公众号,转发送积分 6520505
求助须知:如何正确求助?哪些是违规求助? 8313611
关于积分的说明 17781676
捐赠科研通 5622604
什么是DOI,文献DOI怎么找? 2927261
邀请新用户注册赠送积分活动 1904070
关于科研通互助平台的介绍 1764397