Topic Modeling and Visualization for Big Data in Social Sciences

计算机科学 大数据 数据科学 可视化 数据可视化 主题模型 潜在Dirichlet分配 视觉分析 信息可视化 社会化媒体 情报检索 交互式可视化 数据建模 社交网络(社会语言学) 社会网络分析
作者
Nitin Sukhija,Mahidhar Tatineni,Nicole M. Brown,Mark Van Moer,Paul Rodriguez,Spencer Callicott
出处
期刊:Ubiquitous Intelligence and Computing 被引量:13
标识
DOI:10.1109/uic-atc-scalcom-cbdcom-iop-smartworld.2016.0183
摘要

Topic modeling is a widely used approach for analyzing large text collections. In particular, Latent Dirichlet Allocation (LDA) is one of the most popular topic modeling approaches to aggregate vocabulary from a document corpus to form latent topics. However, learning meaningful topic models with massive document collections which contain millions of documents, billions of tokens is challenging, given the complexity of the data involved, the difficulty in distributing the computation across multiple computing nodes. In recent years some data processing frameworks, such as Spark, Mallet, others have been developed to address the issues associated with analyzing large volumes of unlabeled text pertaining to various domains in a scalable, efficient manner. In this paper, we will present a preliminary case study demonstrating the scholarship achieved in the study of political consumerism via XSEDE resources. The experimental study will showcase the use of digitized social sciences data, text analytics toolkits to generate topic models, visualize topics for empowering intersectional research engaging the relationship between consumption, race, class, gender in the area of sociology. Consequently, this comparative big data textual analysis involving use of JSTOR data, LDA modeling toolkit's, visualization techniques, computational components is of paramount importance, especially for researchers from academic domain dealing with social science applications involving big data.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
joyceee发布了新的文献求助10
1秒前
NingAnMe发布了新的文献求助10
3秒前
3秒前
4秒前
计蒙发布了新的文献求助10
4秒前
4秒前
迷路的糜发布了新的文献求助10
5秒前
搞论文小白完成签到 ,获得积分10
6秒前
信息科完成签到,获得积分20
6秒前
7秒前
大个应助高兴的风华采纳,获得10
8秒前
8秒前
在水一方应助wind2631采纳,获得10
8秒前
Ava应助侯卜文采纳,获得10
8秒前
Peanuts发布了新的文献求助10
9秒前
TZZZ发布了新的文献求助10
10秒前
11秒前
colourful发布了新的文献求助50
12秒前
morena应助凶狠的雪莲采纳,获得10
13秒前
西贝完成签到,获得积分20
13秒前
13秒前
Pauline完成签到,获得积分10
14秒前
ll发布了新的文献求助10
14秒前
14秒前
sarace发布了新的文献求助10
16秒前
李爱国应助信息科采纳,获得10
17秒前
17秒前
wary发布了新的文献求助10
18秒前
Peanuts完成签到 ,获得积分10
19秒前
20秒前
echo发布了新的文献求助10
20秒前
hahahaweiwei完成签到,获得积分10
20秒前
舒适砖家发布了新的文献求助30
21秒前
儒雅的凝旋完成签到 ,获得积分10
21秒前
Oo3完成签到,获得积分10
22秒前
22秒前
22秒前
舒心谷雪完成签到 ,获得积分10
23秒前
淡淡的鱼完成签到,获得积分10
24秒前
Pauline发布了新的文献求助20
24秒前
高分求助中
Malcolm Fraser : a biography 680
Signals, Systems, and Signal Processing 610
天津市智库成果选编 600
Climate change and sports: Statistics report on climate change and sports 500
Forced degradation and stability indicating LC method for Letrozole: A stress testing guide 500
全相对论原子结构与含时波包动力学的理论研究--清华大学 500
Organic Reactions Volume 118 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 化学工程 生物化学 计算机科学 物理 内科学 复合材料 催化作用 物理化学 光电子学 电极 细胞生物学 基因 无机化学
热门帖子
关注 科研通微信公众号,转发送积分 6455829
求助须知:如何正确求助?哪些是违规求助? 8266393
关于积分的说明 17618581
捐赠科研通 5522196
什么是DOI,文献DOI怎么找? 2905004
邀请新用户注册赠送积分活动 1881750
关于科研通互助平台的介绍 1724922