亲爱的研友该休息了!由于当前在线用户较少,发布求助请尽量完整地填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!身体可是革命的本钱,早点休息,好梦!

Time-Aware Data Partition Optimization and Heterogeneous Task Scheduling Strategies in Spark Clusters

计算机科学 分布式计算 动态优先级调度 调度(生产过程) 作业调度程序 大数据 SPARK(编程语言) 公平份额计划 单调速率调度 划分问题 固定优先级先发制人调度 分拆(数论) 并行计算 数学优化 排队 数据挖掘 计算机网络 服务质量 程序设计语言 组合数学 数学
作者
SenXing Lu,Mingming Zhao,Chunlin Li,Quanbing Du,Yingwei Luo
出处
期刊:The Computer Journal [Oxford University Press]
标识
DOI:10.1093/comjnl/bxad017
摘要

Abstract The Spark computing framework provides an efficient solution to address the major requirements of big data processing, but data partitioning and job scheduling in the Spark framework are the two major bottlenecks that limit Spark’s performance. In the Spark Shuffle phase, the data skewing problem caused by unbalanced data partitioning leads to the problem of increased job completion time. In response to the above problems, a balanced partitioning strategy for intermediate data is proposed in this article, which considers the characteristics of intermediate data, establishes a data skewing model and proposes a dynamic partitioning algorithm. In Spark heterogeneous clusters, because of the differences in node performance and task requirements, the default task scheduling algorithm cannot complete scheduling efficiently, which leads to low system task processing efficiency. In order to deal with the above problems, an efficient job scheduling strategy is proposed in this article, which integrates node performance and task requirements, and proposes a task scheduling algorithm using greedy strategy. The experimental results prove that the dynamic partitioning algorithm for intermediate data proposed in this article effectively alleviates the problem that data skew leads to the decrease of system task processing efficiency and shortens the overall task completion time. The efficient job scheduling strategy proposed in this article can efficiently complete the job scheduling tasks under heterogeneous clusters, allocate jobs to nodes in a balanced manner, decrease the overall job completion time and increase the system resource utilization.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
Ganfei完成签到,获得积分20
19秒前
56完成签到,获得积分20
20秒前
25秒前
31秒前
33秒前
56发布了新的文献求助10
38秒前
善学以致用应助Ankzz采纳,获得10
48秒前
1分钟前
Ankzz发布了新的文献求助10
1分钟前
nojego完成签到,获得积分10
2分钟前
追寻元菱应助顺利的雁梅采纳,获得10
2分钟前
Lucas应助Ankzz采纳,获得30
2分钟前
3分钟前
四月发布了新的文献求助10
3分钟前
YifanWang应助科研通管家采纳,获得10
3分钟前
3分钟前
MRHJ发布了新的文献求助10
3分钟前
小蘑菇应助starry采纳,获得10
3分钟前
3分钟前
3分钟前
MRHJ完成签到,获得积分20
3分钟前
3分钟前
Ankzz发布了新的文献求助30
3分钟前
4分钟前
starry发布了新的文献求助10
4分钟前
Kamalika完成签到,获得积分10
4分钟前
Ankzz完成签到,获得积分10
4分钟前
4分钟前
Hello应助starry采纳,获得30
4分钟前
jingjing发布了新的文献求助10
4分钟前
4分钟前
wzgkeyantong发布了新的文献求助10
4分钟前
wzgkeyantong完成签到,获得积分10
4分钟前
YifanWang应助科研通管家采纳,获得10
5分钟前
YifanWang应助科研通管家采纳,获得10
5分钟前
LU应助Wei采纳,获得10
5分钟前
黑摄会阿Fay完成签到,获得积分10
6分钟前
6分钟前
starry发布了新的文献求助30
6分钟前
YifanWang应助科研通管家采纳,获得20
7分钟前
高分求助中
Pipeline and riser loss of containment 2001 - 2020 (PARLOC 2020) 1000
哈工大泛函分析教案课件、“72小时速成泛函分析:从入门到入土.PDF”等 660
Comparing natural with chemical additive production 500
The Leucovorin Guide for Parents: Understanding Autism’s Folate 500
Phylogenetic study of the order Polydesmida (Myriapoda: Diplopoda) 500
A Manual for the Identification of Plant Seeds and Fruits : Second revised edition 500
The Social Work Ethics Casebook: Cases and Commentary (revised 2nd ed.) 400
热门求助领域 (近24小时)
化学 医学 生物 材料科学 工程类 有机化学 内科学 生物化学 物理 计算机科学 纳米技术 遗传学 基因 复合材料 化学工程 物理化学 病理 催化作用 免疫学 量子力学
热门帖子
关注 科研通微信公众号,转发送积分 5211132
求助须知:如何正确求助?哪些是违规求助? 4387741
关于积分的说明 13663104
捐赠科研通 4247756
什么是DOI,文献DOI怎么找? 2330530
邀请新用户注册赠送积分活动 1328265
关于科研通互助平台的介绍 1281116