EasyScale: Elastic Training with Consistent Accuracy and Improved Utilization on GPUs

计算机科学 分布式计算 弹性(物理) 工作量 资源配置 吞吐量 闲置 背景(考古学) 抽象 计算机网络 操作系统 生物 古生物学 复合材料 哲学 材料科学 认识论 无线
作者
Mingzhen Li,Wencong Xiao,Hailong Yang,Biao Sun,Hanyu Zhao,Shiru Ren,Zhongzhi Luan,Xianyan Jia,Yi Liu,Yong Li,Wei Lin,Depei Qian
标识
DOI:10.1145/3581784.3607054
摘要

Distributed synchronized GPU training is commonly used for deep learning. The resource constraint of using a fixed number of GPUs makes large-scale training jobs suffer from long queuing time for resource allocation, and lowers the cluster utilization. Adapting to resource elasticity can alleviate this but often introduces inconsistent model accuracy, due to lacking of capability to decouple model training procedure from resource allocation. We propose EasyScale, an elastic training system that achieves consistent model accuracy under resource elasticity for both homogeneous and heterogeneous GPUs. EasyScale preserves the data-parallel training behaviors strictly, traces the consistency-relevant factors carefully, utilizes the deep learning characteristics for EasyScaleThread abstraction and fast context-switching. To utilize heterogeneous cluster, EasyScale dynamically assigns workers based on the intra-/inter-job schedulers, minimizing load imbalance and maximizing aggregated job throughput. Deployed in an online serving cluster, EasyScale powers the training jobs to utilize idle GPUs opportunistically, improving overall cluster utilization by 62.1%.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
严yee发布了新的文献求助10
刚刚
高佳智发布了新的文献求助10
刚刚
iriyan发布了新的文献求助10
1秒前
善学以致用应助wangli采纳,获得10
3秒前
上官若男应助rainbow采纳,获得10
3秒前
深情安青应助LZH采纳,获得10
3秒前
3秒前
无花果应助liu采纳,获得10
4秒前
4秒前
自然鹭洋完成签到,获得积分10
4秒前
4秒前
Ava应助安蓝采纳,获得10
4秒前
帅气善斓发布了新的文献求助10
4秒前
量子星尘发布了新的文献求助10
5秒前
冷傲迎梦完成签到,获得积分20
5秒前
6秒前
Tayyy完成签到,获得积分10
6秒前
小二郎应助迷路的煎蛋采纳,获得10
6秒前
6秒前
刘一帆发布了新的文献求助10
7秒前
YE完成签到,获得积分10
8秒前
在水一方应助残剑月采纳,获得10
8秒前
ZZL完成签到,获得积分10
8秒前
希望天下0贩的0应助time404采纳,获得10
8秒前
8秒前
小芋完成签到,获得积分10
8秒前
8秒前
内向书竹完成签到 ,获得积分10
8秒前
呼呼哈嘿应助GSQ采纳,获得10
8秒前
852应助Ruby采纳,获得20
9秒前
9秒前
乐乐应助务觅采纳,获得10
9秒前
谢青发布了新的文献求助10
9秒前
9秒前
赘婿应助元谷雪采纳,获得10
10秒前
10秒前
HH应助shijie采纳,获得10
10秒前
朱奇发布了新的文献求助10
11秒前
传奇3应助孤独如曼采纳,获得10
11秒前
lq发布了新的文献求助10
12秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Encyclopedia of Agriculture and Food Systems Third Edition 2000
Clinical Microbiology Procedures Handbook, Multi-Volume, 5th Edition 临床微生物学程序手册,多卷,第5版 2000
King Tyrant 720
Lectures in probability theory and mathematical statistics - 3rd Edition 500
The Synthesis of Simplified Analogues of Crambescin B Carboxylic Acid and Their Inhibitory Activity of Voltage-Gated Sodium Channels: New Aspects of Structure–Activity Relationships 400
El poder y la palabra: prensa y poder político en las dictaduras : el régimen de Franco ante la prensa y el periodismo 400
热门求助领域 (近24小时)
化学 材料科学 生物 医学 工程类 计算机科学 有机化学 物理 生物化学 纳米技术 复合材料 内科学 化学工程 人工智能 催化作用 遗传学 数学 基因 量子力学 物理化学
热门帖子
关注 科研通微信公众号,转发送积分 5597618
求助须知:如何正确求助?哪些是违规求助? 4683110
关于积分的说明 14828504
捐赠科研通 4661108
什么是DOI,文献DOI怎么找? 2536751
邀请新用户注册赠送积分活动 1504315
关于科研通互助平台的介绍 1470215