已入深夜,您辛苦了!由于当前在线用户较少,发布求助请尽量完整地填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!祝你早点完成任务,早点休息,好梦!

Optimizing depthwise separable convolution on DCU

可分离空间 卷积(计算机科学) 计算机科学 数学 人工智能 数学分析 人工神经网络
作者
Zheng Liu,Hao Meng,Weizhe Zhang,Gangzhao Lu,Xiaobin Tian,Siyu Yang,Min Xie,Jie Dai,Chengfu Yuan,Desheng Wang,Hongwei Yang
出处
期刊:CCF Transactions on High Performance Computing [Springer Science+Business Media]
标识
DOI:10.1007/s42514-024-00200-3
摘要

Abstract The integration of Large Language Models (LLMs) with Convolutional Neural Networks (CNNs) is significantly advancing the development of large models. However, the computational cost of large models is high, necessitating optimization for greater efficiency. One effective way to optimize the CNN is the use of depthwise separable convolution (DSC), which decouples spatial and channel convolutions to reduce the number of parameters and enhance efficiency. In this study, we focus on porting and optimizing DSC kernel functions from the GPU to the Deep Computing Unit (DCU), a computing accelerator developed in China. For depthwise convolution, we implement a row data reuse algorithm to minimize redundant data loading and memory access overhead. For pointwise convolution, we extend our dynamic tiling strategy to improve hardware utilization by balancing resource allocation among blocks and threads, and we enhance arithmetic intensity through a channel distribution algorithm. We implement depthwise and pointwise convolution kernel functions and integrate them into PyTorch as extension modules. Experiments demonstrate that our optimized kernel functions outperform the MIOpen library on the DCU, achieving up to a 3.59 $$\times$$ × speedup in depthwise convolution and up to a 3.54 $$\times$$ × speedup in pointwise convolution. These results highlight the effectiveness of our approach in leveraging the DCU’s architecture to accelerate deep learning operations.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
小宋完成签到,获得积分10
2秒前
EmberEdison发布了新的文献求助10
4秒前
wanqiu完成签到,获得积分20
7秒前
霜序十六完成签到,获得积分10
7秒前
温馨家园完成签到 ,获得积分10
9秒前
感动傲易发布了新的文献求助10
10秒前
白金之星完成签到 ,获得积分10
10秒前
16秒前
Shy155完成签到,获得积分20
17秒前
Shy155发布了新的文献求助10
24秒前
EmberEdison完成签到,获得积分10
28秒前
科目三应助有志不在年糕采纳,获得10
31秒前
Jasper应助你怎么睡得着觉采纳,获得10
33秒前
田様应助WeiG采纳,获得10
34秒前
压垮稻草的最后一只骆驼完成签到,获得积分10
36秒前
41秒前
田様应助寒冷河马采纳,获得10
41秒前
pegasus0802完成签到,获得积分10
44秒前
46秒前
48秒前
寒雨完成签到,获得积分10
50秒前
寒雨发布了新的文献求助10
52秒前
liuliu完成签到,获得积分10
52秒前
54秒前
59秒前
我是老大应助寒雨采纳,获得10
1分钟前
医学完成签到,获得积分10
1分钟前
wr781586完成签到 ,获得积分10
1分钟前
Jasper应助罗密欧与傅里叶采纳,获得10
1分钟前
你怎么睡得着觉完成签到,获得积分10
1分钟前
疯狂的雅容完成签到 ,获得积分10
1分钟前
钉钉完成签到 ,获得积分10
1分钟前
冷静的访天完成签到 ,获得积分10
1分钟前
liqing给liqing的求助进行了留言
1分钟前
缓慢从波完成签到,获得积分10
1分钟前
1分钟前
1分钟前
赘婿应助罗密欧与傅里叶采纳,获得10
1分钟前
缓慢从波发布了新的文献求助10
1分钟前
1分钟前
高分求助中
(禁止应助)【重要!!请各位详细阅读】【科研通的精品贴汇总】 10000
Semantics for Latin: An Introduction 1099
MRI Parameters and Positioning 1000
Robot-supported joining of reinforcement textiles with one-sided sewing heads 780
A Student's Guide to Developmental Psychology 600
水稻光合CO2浓缩机制的创建及其作用研究 500
Logical form: From GB to Minimalism 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 冶金 细胞生物学 免疫学
热门帖子
关注 科研通微信公众号,转发送积分 4155150
求助须知:如何正确求助?哪些是违规求助? 3691036
关于积分的说明 11658353
捐赠科研通 3382883
什么是DOI,文献DOI怎么找? 1856286
邀请新用户注册赠送积分活动 917781
科研通“疑难数据库(出版商)”最低求助积分说明 831106