标题 |
![]() 通过近乎无气泡的管道优化加速端云协作推理
相关领域
管道(软件)
推论
云计算
气泡
计算机科学
石油工程
数据科学
地质学
人工智能
并行计算
操作系统
|
网址 | |
DOI |
10.1109/INFOCOM55648.2025.11044632
doi
提醒:求助人提供的doi与AI识别不一致
10.48550/arxiv.2501.12388
Doi
|
其它 | 摘要:端云协作提供了一种很有前途的策略,通过将部分推理工作负载从终端设备卸载到云服务器来提高 DNN 推理中的服务质量 (QoS)。尽管存在潜力,但复杂的模型架构和动态网络条件将在流水线执行中引入大量气泡(即空闲等待时间),导致资源利用率低下和 QoS 下降。为了应对这些挑战,我们引入了一个名为 COACH 的新型框架,该框架专为近乎无气泡的管道协作推理而设计,从而实现低推理延迟和高系统吞吐量。最初,COACH 采用一个离线组件,该组件利用高效的递归分而治之算法来优化模型分区和传输量化,旨在最大限度地减少管道气泡的发生。随后,COACH 中的在线组件采用自适应量化调整和上下文感知缓存策略来进一步稳定管道执行。具体来说,COACH 分析了缓存中中间数据与标签语义中心之间的相关性,及其对量化调整的影响,从而有效地适应网络波动。我们的实验证明了 COACH 在减少推理延迟和提高系统吞吐量方面的功效。值得注意的是,在保持相当的准确性的同时,COACH 的推理速度比基准高 1.7× 倍,系统吞吐量高 2.1× 倍。 |
求助人 | |
下载 | 求助已完成,仅限求助人下载。 |
温馨提示:该文献已被科研通 学术中心 收录,前往查看
科研通『学术中心』是文献索引库,收集文献的基本信息(如标题、摘要、期刊、作者、被引量等),不提供下载功能。如需下载文献全文,请通过文献求助获取。
|