Topic2Labels: A framework to annotate and classify the social media data through LDA topics and deep learning models for crisis response

潜在Dirichlet分配 计算机科学 人工智能 社会化媒体 深度学习 特征学习 机器学习 特征(语言学) 主题模型 学习排名 标记数据 自编码 特征工程 代表(政治) 背景(考古学) 秩(图论) 编码器 一般化 排名(信息检索) 万维网 古生物学 哲学 政治学 法学 数学分析 组合数学 操作系统 政治 生物 语言学 数学
作者
Junaid Abdul Wahid,Lei Shi,Yufei Gao,Beifang Yang,Lin Wei,Yongcai Tao,Shabir Hussain,Muhammad Ayoub,Imam Yagoub
出处
期刊:Expert Systems With Applications [Elsevier]
卷期号:195: 116562-116562 被引量:19
标识
DOI:10.1016/j.eswa.2022.116562
摘要

The abundant use of social media impacts every aspect of life, including crisis management. Disaster management needs real-time data to be used in machine learning and deep learning models to aid their decision making. Mostly the data that is newly generated from social media is unstructured and unlabeled. Current text classification models based on supervised deep learning models heavily rely on human-labeled data that very small size and imbalanced in the context of disasters, ultimately affecting the generalization of models. In this study, we propose Topic2labels (T2L) framework which provides an automated way of labeling the data through LDA (latent dirichlet allocation) topic modeling approach and utilize Bert (the bidirectional encoder representation from transformer) embeddings for construction of feature vector to be employed to classify the data contextually. Our framework consists of three layers. In the first layer, we adopt LDA to generate the topics from the data, and develop a new algorithm to rank the topics, and map the highest ranked dominant topic into label to annotate the data. In the second layer, we transform the labeled text into feature representation through Bert embeddings and in the third layer we leveraged deep learning models as classifiers to classify the textual data into multiple categories. Experimental results on crisis-related datasets show that our framework performs better in terms of classification performance and yields improvement as compared to other baseline approaches.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
liu超完成签到,获得积分10
刚刚
2秒前
Huang发布了新的文献求助30
3秒前
3秒前
隔壁老王完成签到,获得积分10
3秒前
徐丫丫发布了新的文献求助10
4秒前
倒霉的芒果完成签到 ,获得积分10
4秒前
5秒前
5秒前
阿巴阿巴发布了新的文献求助10
6秒前
Owen应助初七采纳,获得30
8秒前
8秒前
哄不好的南完成签到 ,获得积分10
9秒前
rzzz完成签到,获得积分10
9秒前
文静发布了新的文献求助10
11秒前
尊敬的幻桃完成签到,获得积分10
11秒前
在水一方应助阿巴阿巴采纳,获得10
11秒前
11秒前
641发布了新的文献求助10
13秒前
嘻嘻嘻完成签到,获得积分10
13秒前
生动驳完成签到,获得积分10
14秒前
14秒前
vidi发布了新的文献求助20
14秒前
缥缈完成签到,获得积分10
15秒前
思源应助丨小桉柠采纳,获得10
15秒前
15秒前
徐丫丫完成签到,获得积分10
15秒前
han完成签到 ,获得积分10
15秒前
16秒前
开朗的翠彤完成签到,获得积分10
16秒前
阿巴阿巴完成签到,获得积分10
16秒前
16秒前
个性的紫菜应助HUJI采纳,获得10
17秒前
17秒前
卖报的小火柴完成签到,获得积分20
19秒前
Ceceliayyy完成签到 ,获得积分10
19秒前
取个id真难完成签到,获得积分20
20秒前
半青完成签到,获得积分10
20秒前
予你发布了新的文献求助10
20秒前
20秒前
高分求助中
Sustainable Land Management: Strategies to Cope with the Marginalisation of Agriculture 1000
Corrosion and Oxygen Control 600
Yaws' Handbook of Antoine coefficients for vapor pressure 500
Python Programming for Linguistics and Digital Humanities: Applications for Text-Focused Fields 500
重庆市新能源汽车产业大数据招商指南(两链两图两池两库两平台两清单两报告) 400
Division and square root. Digit-recurrence algorithms and implementations 400
行動データの計算論モデリング 強化学習モデルを例として 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 有机化学 工程类 生物化学 纳米技术 物理 内科学 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 电极 光电子学 量子力学
热门帖子
关注 科研通微信公众号,转发送积分 2552335
求助须知:如何正确求助?哪些是违规求助? 2178067
关于积分的说明 5612722
捐赠科研通 1898996
什么是DOI,文献DOI怎么找? 948152
版权声明 565543
科研通“疑难数据库(出版商)”最低求助积分说明 504315