CNN卷积计算在移动GPU上的加速研究

计算机工程与科学

CNN卷积计算在移动GPU上的加速研究

王湘新1，时洋2，文梅2

（1.武警湖南省消防总队信息中心，湖南长沙 410205；2.国防科技大学计算机学院，湖南长沙 410073）

收稿日期:2016-11-08 修回日期:2017-02-15 出版日期:2018-01-25 发布日期:2018-01-25
基金资助:
国家自然科学基金（61272145）

Accelerating CNN on mobile GPU

WANG Xiang-xin1，SHI Yang2，WEN Mei2

（1.Information Center of Armed Police Fire Center，Changsha 410205;

2.College of Computer,National University of Defense Technology,Changsha 410073,China）

Received:2016-11-08 Revised:2017-02-15 Online:2018-01-25 Published:2018-01-25

摘要/Abstract

摘要：

卷积神经网络（CNN）凭借其优秀的表现正在诸如图像分类、语音识别等领域里扮演着越来越重要的角色，已经有一些研究人员想要将这个深度学习过程复制到手机上。但是，由于CNN巨大的计算量，移植程序的性能一直难以令人满意。为了探讨如何解决这一问题，借助MXNet这样一个深度学习的框架在手机上实现了CNN的前向过程，并且将注意力放在了使用手机上另一个强大的计算设备——GPU上。最终选择使用OpenCL通用编程框架将前向过程中最耗时的卷积操作利用矩阵乘来完成，并转移到GPU上进行。在此基础之上还针对手机GPU做了一些优化。最终，实验结果显示我们成功地将前向过程的时间降低到了原来时间的一半。

关键词: CNN, 手机, 移动GPU, 快速算法, OpenCL

Abstract:

Convolutional Neural Networks (CNNs) are playing an increasingly important role in areas such as image classification and speech recognition because of their excellent performance. Some researchers have already wanted to apply this deep learning process on mobile phones, but the performance of the porting program is unsatisfactory due to the huge amount of computation of CNN. In order to explore how to solve this problem, this paper uses a deep learning framework named MXNet to realize the forward process of CNN on mobile phones and focuses on the use of GPU that is another powerful computing device on the mobile phone. Based on the OpenCL common programming framework, we use matrix multiplication to compute the most time-consuming convolution in the forward process and move it to the GPU. Besides, serval improvements are made to achieve better performance. Finally, the experimental results show that we succeed in reducing the time of the forward process to half of the original time.

Key words: CNN, mobile phone, mobile GPU, fast algorithm, OpenCL

王湘新1，时洋2，文梅2. CNN卷积计算在移动GPU上的加速研究[J]. 计算机工程与科学.

WANG Xiang-xin1，SHI Yang2，WEN Mei2. Accelerating CNN on mobile GPU[J]. Computer Engineering & Science.

编辑推荐

Metrics

阅读次数

全文

246

HTML			PDF

最新录用	在线预览	正式出版	最新录用	在线预览	正式出版
0	0	0	246	0	0

来源	本网站	其他网站

次数	202	44
比例	82%	18%

摘要

237

最新录用	在线预览	正式出版

237	0	0

	来源	本网站

	次数	237
	比例	100%

[1]	张骞, 陈紫强, 孙宗威, 赖镜安. 融合高分辨率网络的雾天目标检测算法[J]. 计算机工程与科学, 2023, 45(11): 1970-1981.
[2]	罗晓霞, 邓勇, 叶鸥. 复杂场景中多阶段自适应帽子检测算法[J]. 计算机工程与科学, 2023, 45(07): 1253-1262.
[3]	梁毅, 吐尔地·托合提, 艾斯卡尔·艾木都拉, . 多层CNN特征融合及多分类器混合预测的多模态虚假信息检测#br#[J]. 计算机工程与科学, 2023, 45(06): 1087-1096.
[4]	许浪, 李代伟, 张海清, 唐聃, 何磊, 于曦. 基于神经网络的医疗文本分类研究[J]. 计算机工程与科学, 2023, 45(06): 1116-1122.
[5]	邓姗姗, 黄慧, 马燕. 基于改进Faster R-CNN的小目标检测算法[J]. 计算机工程与科学, 2023, 45(05): 869-877.
[6]	朱浩, 周博洋, 卢雪山, 杜溢墨. OpenCL计算软件栈评估[J]. 计算机工程与科学, 2021, 43(12): 2105-2114.
[7]	王梅, 李东旭, 陈琳琳, 范思萌, 许传海, 杨二龙. 基于AT-NMS的Mask RCNN改进算法[J]. 计算机工程与科学, 2021, 43(10): 1803-1809.
[8]	吴张倩, 苏兆品, 武钦芳, 张国富, . 实际噪声下基于时序卷积网络的手机来源识别[J]. 计算机工程与科学, 2021, 43(08): 1461-1469.
[9]	苏梓培, 杨鑫, 陈弟虎, 粟涛. 基于3D可扩展PE阵列CNN加速器的设计[J]. 计算机工程与科学, 2021, 43(03): 389-397.
[10]	罗凡波, 王平, 徐桂菲, 雷勇军, 范烊. 基于多尺度卷积神经网络的人群聚集异常预测[J]. 计算机工程与科学, 2020, 42(12): 2223-2232.
[11]	张丽霞, 曾广平, 宣兆成. NSST域下SPCNN与SR结合的多源图像融合[J]. 计算机工程与科学, 2020, 42(11): 2042-2049.
[12]	张永梅, 滑瑞敏, 马健喆, 胡蕾. 基于深度学习与超分辨率重建的遥感高时空融合方法[J]. 计算机工程与科学, 2020, 42(09): 1578-1586.
[13]	贾小硕, 曾上游, 潘兵, 周悦. 基于改进MTCNN网络的目标人脸快速检测[J]. 计算机工程与科学, 2020, 42(07): 1262-1266.
[14]	马美荣，李东喜. 基于RetinaNet的手机主板缺陷检测研究[J]. 计算机工程与科学, 2020, 42(04): 673-682.
[15]	徐频捷1,2，王诲喆1,2，李策3，唐丹1，赵地1. 基于脉冲神经网络与移动GPU计算的图像分类算法研究与实现[J]. 计算机工程与科学, 2020, 42(03): 397-403.