Geryon: Accelerating Distributed CNN Training by Network-Level Flow Scheduling

计算机科学 加速 试验台 服务器 切片 调度(生产过程) 并行计算 卷积神经网络 缩放比例 分布式计算 分拆(数论) 人工智能 计算机网络 数学优化 组合数学 万维网 数学 几何学
作者
Shuai Wang,Dan Li,Jinkun Geng
标识
DOI:10.1109/infocom41043.2020.9155282
摘要

Increasingly rich data sets and complicated models make distributed machine learning more and more important. However, the cost of extensive and frequent parameter synchronizations can easily diminish the benefits of distributed training across multiple machines. In this paper, we present Geryon, a network-level flow scheduling scheme to accelerate distributed Convolutional Neural Network (CNN) training. Geryon leverages multiple flows with different priorities to transfer parameters of different urgency levels, which can naturally coordinate multiple parameter servers and prioritize the urgent parameter transfers in the entire network fabric. Geryon requires no modification in CNN models and does not affect the training accuracy. Based on the experimental results of four representative CNN models on a testbed of 8 GPU servers, Geryon achieves up to 95.7% scaling efficiency even with 10GbE bandwidth. In contrast, for most models, the scaling efficiency of vanilla TensorFlow is no more than 37% and that of TensorFlow with parameter partition and slicing is around 80%. In terms of training throughput, Geryon enhanced with parameter partition and slicing achieves up to 4.37x speedup, where the flow scheduling algorithm itself achieves up to 1.2x speedup over parameter partition and slicing.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
刚刚
刚刚
可萨利亚发布了新的文献求助10
1秒前
1秒前
1秒前
怡然诗霜发布了新的文献求助10
1秒前
2秒前
3秒前
zyw完成签到 ,获得积分10
3秒前
4秒前
小区保安发布了新的文献求助10
5秒前
故意的若血完成签到,获得积分10
5秒前
5秒前
lili完成签到,获得积分10
6秒前
lymzc发布了新的文献求助10
6秒前
7秒前
某某某发布了新的文献求助10
7秒前
颜枫莹发布了新的文献求助10
7秒前
7秒前
7秒前
朵的给朵的的求助进行了留言
8秒前
番茄发布了新的文献求助10
8秒前
Rokemonis3Kg完成签到,获得积分10
9秒前
十一完成签到,获得积分10
9秒前
10秒前
10秒前
10秒前
11秒前
hujialiang完成签到,获得积分10
11秒前
11秒前
思源应助小帅采纳,获得10
11秒前
11秒前
烂泥发布了新的文献求助10
12秒前
12秒前
小蘑菇应助旭日采纳,获得10
12秒前
wanci应助小区保安采纳,获得50
13秒前
13秒前
清风呀完成签到,获得积分10
13秒前
十三完成签到,获得积分10
14秒前
14秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Lewis’s Child and Adolescent Psychiatry: A Comprehensive Textbook Sixth Edition 2000
Cronologia da história de Macau 1600
Continuing Syntax 1000
Encyclopedia of Quaternary Science Reference Work • Third edition • 2025 800
Signals, Systems, and Signal Processing 510
Pharma R&D Annual Review 2026 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 化学工程 生物化学 计算机科学 物理 内科学 复合材料 催化作用 物理化学 光电子学 电极 细胞生物学 基因 无机化学
热门帖子
关注 科研通微信公众号,转发送积分 6214549
求助须知:如何正确求助?哪些是违规求助? 8040142
关于积分的说明 16755550
捐赠科研通 5302799
什么是DOI,文献DOI怎么找? 2825158
邀请新用户注册赠送积分活动 1803572
关于科研通互助平台的介绍 1664004