亲爱的研友该休息了!由于当前在线用户较少,发布求助请尽量完整地填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!身体可是革命的本钱,早点休息,好梦!

A High-Throughput and Power-Efficient FPGA Implementation of YOLO CNN for Object Detection

现场可编程门阵列 吞吐量 计算机科学 目标检测 对象(语法) 功率(物理) 人工智能 计算机视觉 计算机体系结构 计算机硬件 嵌入式系统 模式识别(心理学) 电信 无线 物理 量子力学
作者
Duy Thanh Nguyen,Tuan Nghia Nguyen,Hyun Kim,Hyuk‐Jae Lee
出处
期刊:IEEE Transactions on Very Large Scale Integration Systems [Institute of Electrical and Electronics Engineers]
卷期号:27 (8): 1861-1873 被引量:368
标识
DOI:10.1109/tvlsi.2019.2905242
摘要

Convolutional neural networks (CNNs) require numerous computations and external memory accesses. Frequent accesses to off-chip memory cause slow processing and large power dissipation. For real-time object detection with high throughput and power efficiency, this paper presents a Tera-OPS streaming hardware accelerator implementing a you-only-look-once (YOLO) CNN. The parameters of the YOLO CNN are retrained and quantized with the PASCAL VOC data set using binary weight and flexible low-bit activation. The binary weight enables storing the entire network model in block RAMs of a field-programmable gate array (FPGA) to reduce off-chip accesses aggressively and, thereby, achieve significant performance enhancement. In the proposed design, all convolutional layers are fully pipelined for enhanced hardware utilization. The input image is delivered to the accelerator line-by-line. Similarly, the output from the previous layer is transmitted to the next layer line-by-line. The intermediate data are fully reused across layers, thereby eliminating external memory accesses. The decreased dynamic random access memory (DRAM) accesses reduce DRAM power consumption. Furthermore, as the convolutional layers are fully parameterized, it is easy to scale up the network. In this streaming design, each convolution layer is mapped to a dedicated hardware block. Therefore, it outperforms the "one-size-fits-all" designs in both performance and power efficiency. This CNN implemented using VC707 FPGA achieves a throughput of 1.877 tera operations per second (TOPS) at 200 MHz with batch processing while consuming 18.29 W of on-chip power, which shows the best power efficiency compared with the previous research. As for object detection accuracy, it achieves a mean average precision (mAP) of 64.16% for the PASCAL VOC 2007 data set that is only 2.63% lower than the mAP of the same YOLO network with full precision.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
26秒前
飘逸的狗完成签到,获得积分10
1分钟前
1分钟前
量子星尘发布了新的文献求助10
1分钟前
爱静静应助科研通管家采纳,获得10
1分钟前
量子星尘发布了新的文献求助10
2分钟前
常有李完成签到,获得积分10
2分钟前
老石完成签到 ,获得积分10
3分钟前
vitamin完成签到 ,获得积分10
3分钟前
QCB完成签到 ,获得积分10
3分钟前
牛八先生完成签到,获得积分10
3分钟前
4分钟前
量子星尘发布了新的文献求助10
4分钟前
5分钟前
shendy发布了新的文献求助10
5分钟前
量子星尘发布了新的文献求助20
6分钟前
seven完成签到,获得积分10
6分钟前
讨厌牛奶发布了新的文献求助10
6分钟前
6分钟前
风中黎昕完成签到 ,获得积分10
6分钟前
cc完成签到,获得积分10
6分钟前
葫芦壳完成签到,获得积分10
7分钟前
务实的奇迹完成签到 ,获得积分10
7分钟前
量子星尘发布了新的文献求助10
8分钟前
shendy完成签到,获得积分10
8分钟前
8分钟前
柴桑青木应助乘风采纳,获得10
8分钟前
xc发布了新的文献求助10
8分钟前
mm完成签到 ,获得积分10
8分钟前
feng1235完成签到,获得积分10
8分钟前
cacaldon发布了新的文献求助10
8分钟前
量子星尘发布了新的文献求助10
9分钟前
小橘子吃傻子完成签到,获得积分10
10分钟前
Jasper应助小橘子吃傻子采纳,获得10
10分钟前
温不胜的破木吉他完成签到 ,获得积分10
10分钟前
量子星尘发布了新的文献求助10
11分钟前
乘风完成签到,获得积分10
11分钟前
xiliyusheng完成签到 ,获得积分10
11分钟前
沉沉完成签到 ,获得积分0
12分钟前
鲲鹏完成签到 ,获得积分10
12分钟前
高分求助中
(应助此贴封号)【重要!!请各位详细阅读】【科研通的精品贴汇总】 10000
Voyage au bout de la révolution: de Pékin à Sochaux 700
血液中补体及巨噬细胞对大肠杆菌噬菌体PNJ1809-09活性的影响 500
Methodology for the Human Sciences 500
First Farmers: The Origins of Agricultural Societies, 2nd Edition 500
Simulation of High-NA EUV Lithography 400
Metals, Minerals, and Society 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 冶金 细胞生物学 免疫学
热门帖子
关注 科研通微信公众号,转发送积分 4317068
求助须知:如何正确求助?哪些是违规求助? 3835446
关于积分的说明 11995032
捐赠科研通 3475683
什么是DOI,文献DOI怎么找? 1906471
邀请新用户注册赠送积分活动 952471
科研通“疑难数据库(出版商)”最低求助积分说明 853917