DiSCo: Device-Server Collaborative LLM-Based Text Streaming Services

计算机科学 万维网 计算机网络 多媒体
作者
Ting Sun,P. Wang,Fan Lai
出处
期刊:Cornell University - arXiv
标识
DOI:10.48550/arxiv.2502.11417
摘要

The rapid rise of large language models (LLMs) in text streaming services has introduced significant cost and Quality of Experience (QoE) challenges in serving millions of daily requests, especially in meeting Time-To-First-Token (TTFT) and Time-Between-Token (TBT) requirements for real-time interactions. Our real-world measurements show that both server-based and on-device deployments struggle to meet diverse QoE demands: server deployments face high costs and last-hop issues (e.g., Internet latency and dynamics), while on-device LLM inference is constrained by resources. We introduce DiSCo, a device-server cooperative scheduler designed to optimize users' QoE by adaptively routing requests and migrating response generation between endpoints while maintaining cost constraints. DiSCo employs cost-aware scheduling, leveraging the predictable speed of on-device LLM inference with the flexible capacity of server-based inference to dispatch requests on the fly, while introducing a token-level migration mechanism to ensure consistent token delivery during migration. Evaluations on real-world workloads -- including commercial services like OpenAI GPT and DeepSeek, and open-source deployments such as LLaMA3 -- show that DiSCo can improve users' QoE by reducing tail TTFT (11-52\%) and mean TTFT (6-78\%) across different model-device configurations, while dramatically reducing serving costs by up to 84\% through its migration mechanism while maintaining comparable QoE levels.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
lu7完成签到 ,获得积分10
刚刚
科研通AI6.1应助勤恳绝施采纳,获得50
刚刚
LEON完成签到,获得积分10
1秒前
小小完成签到,获得积分10
1秒前
向阳完成签到,获得积分20
2秒前
3秒前
3秒前
4秒前
斜阳完成签到 ,获得积分10
4秒前
菠萝水手完成签到,获得积分10
5秒前
尼仲星完成签到 ,获得积分10
5秒前
5秒前
qintian0550给qintian0550的求助进行了留言
6秒前
鲤鱼蓝天完成签到,获得积分10
6秒前
科研通AI6.1应助董事长采纳,获得10
6秒前
DDvicky发布了新的文献求助10
7秒前
Jw完成签到,获得积分10
8秒前
虎啊虎啊发布了新的文献求助10
8秒前
aveturner完成签到,获得积分10
8秒前
尊敬亦寒发布了新的文献求助10
8秒前
妮妮完成签到 ,获得积分10
8秒前
hrd完成签到,获得积分10
9秒前
yulian完成签到,获得积分10
9秒前
科研小白完成签到,获得积分10
10秒前
莉莉子发布了新的文献求助10
10秒前
Atao完成签到,获得积分10
11秒前
12秒前
呀哈磊完成签到,获得积分10
12秒前
lyb1853完成签到 ,获得积分10
13秒前
wh完成签到,获得积分10
13秒前
虎啊虎啊完成签到,获得积分10
14秒前
lxj完成签到,获得积分10
14秒前
111完成签到 ,获得积分10
14秒前
qiang完成签到,获得积分10
14秒前
尊敬太阳完成签到,获得积分20
15秒前
molihuakai应助MoiMoi采纳,获得10
15秒前
eagle14835完成签到,获得积分10
15秒前
顺心抽屉完成签到 ,获得积分10
17秒前
勺子完成签到,获得积分10
18秒前
Epiphany完成签到,获得积分10
18秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Prompt Engineering for Clinicians: Harnessing AI in Everyday Medical Practice 600
University Physics for the Life Sciences 500
REAL-WORLD EFFICACY AND GENOMIC LANDSCAPE OF POLATUZUMA VEDOTIN-BASED FIRST-LINE THERAPY IN DIFFUSE LARGE B-CELL LYMPHOMA: A FOCUS ON TP53 MUTATIONS AND TREATMENT RESPONSE 500
Handbook of Luminescence Dating 500
Safety Pharmacology 500
《KNN基无铅压电陶瓷电学性能优化与物理机理研究》 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 计算机科学 化学工程 生物化学 物理 内科学 复合材料 催化作用 光电子学 物理化学 电极 细胞生物学 基因 遗传学
热门帖子
关注 科研通微信公众号,转发送积分 6951248
求助须知:如何正确求助?哪些是违规求助? 8635501
关于积分的说明 18310063
捐赠科研通 6393428
什么是DOI,文献DOI怎么找? 3082001
关于科研通互助平台的介绍 2127081
邀请新用户注册赠送积分活动 2058885