基于FPGA的HEVC后处理CNN硬件加速器研究

计算机工程与科学

基于FPGA的HEVC后处理CNN硬件加速器研究

夏珺1，钱磊2，严伟3，柴志雷1

（1.江南大学物联网工程学院，江苏无锡 214122;

2.数学工程与先进计算国家重点实验室,江苏无锡 214122;3.北京大学软件与微电子学院，北京 102600）

收稿日期:2018-06-29 修回日期:2018-08-18 出版日期:2018-12-25 发布日期:2018-12-25
基金资助:
数学工程与先进计算国家重点实验室开放基金（2017A08）;国家重点研发计划（2016YFC0801001）

An FPGA-based HEVC post-processing

CNN hardware accelerator

XIA Jun1，Qian Lei2，YAN Wei3，CHAI Zhilei1

（1.School of Internet of Things Engineering,Jiangnan University,Wuxi 214122;

2.State Key Laboratory of Mathematical Engineering and Advanced Computing,Wuxi 214122;

3.School of Software & Microelectronics,Peking University,Beijing 102600,China）

Received:2018-06-29 Revised:2018-08-18 Online:2018-12-25 Published:2018-12-25

摘要/Abstract

摘要：

针对高效视频编解码标准中后处理CNN算法在通用平台运行时产生的高延时缺点，提出一种基于现场可编程逻辑门阵列（FPGA）的后处理卷积神经网络硬件并行架构。提出的并行架构通过改进输入与输出缓冲的数据并发过程，调整卷积模块整体并行度，加快模块硬件流水。实验结果表明，基于本文所提出的并行架构设计的CNN硬件加速器在Xilinx ZCU102上处理分辨率为176×144视频流，计算性能相当于每秒360.5 GFLOPS，计算速度可满足81.01 FPS，相比时钟频率4 GHz的Intel i7-4790K，计算速度加快了76.67倍,相比NVIDIA GeForce GTX 750Ti加速了32.50倍。在计算能效比方面，本文后处理CNN加速器功耗为12.095 J，能效比是Intel i7-4790K的512.90倍，是NVIDIA GeForce GTX 750Ti的125.78倍。

关键词: 高清视频编解码后处理, 卷积神经网络, 现场可编程逻辑门阵列, 硬件实现

Abstract:

Aiming at the shortcomings of the post-processing CNN algorithm running on the common platform according to the high-efficiency video code standard, we propose a postprocessing convolutional neural network hardware parallel architecture based on field programmable gate array (FPGA) to improve the overall parallelism of the convolution module and the hardware flow of the module by optimizing the concurrent data input and output buffering process. Experiments on 176×144 video streams on the Xilinx ZCU102 show that the proposed CNN hardware accelerator can achieve an equivalent computational performance of 360.5G floating-point operation per second. The computation speed can satisfy 81.01 FPS, which is 76.67 times faster than that of the Intel i7-4790K with a clock frequency of 4Ghz. The speedup is 32.50 times faster than the NVIDIA GeForce GTX 750Ti. In the calculation of energy efficiency ratio, the proposal’s power consumption is 12.095W, 512.9 times of that of the Intel i74790K and 125.78 times that of the NVIDIA GeForce GTX 750Ti.

Key words: HEVC post-processing, convolutional neural network, field programmable logic gate array(FPGA), hardware implementation

夏珺1，钱磊2，严伟3，柴志雷1. 基于FPGA的HEVC后处理CNN硬件加速器研究[J]. 计算机工程与科学.

XIA Jun1，Qian Lei2，YAN Wei3，CHAI Zhilei1.

An FPGA-based HEVC post-processing

CNN hardware accelerator

[J]. Computer Engineering & Science.

[1]	陈旭, 陈子雄, 景永俊, 王叔洋, 宋吉飞. 基于双曲图卷积神经网络的切片级漏洞检测方法[J]. 计算机工程与科学, 2025, 47(05): 851-863.
[2]	王莹, 杨青, 王翔宇, 张勇, . 基于非对称空间特征的脑电信号情感分析研究[J]. 计算机工程与科学, 2025, 47(05): 921-930.
[3]	李珍琪, 王强, 齐星云, 赖明澈, 赵言亢, 陆亿行, 黎渊. 轻量化卷积神经网络硬件加速设计及FPGA实现[J]. 计算机工程与科学, 2025, 47(04): 582-591.
[4]	徐欣, 李若诗, 袁野, 刘娜. 基于可学习图像滤波器的雾天驾驶场景图像语义分割[J]. 计算机工程与科学, 2024, 46(11): 2027-2034.
[5]	付燕, 杨旭, 叶鸥. 基于CNN和Transformer特征融合的烟雾识别方法[J]. 计算机工程与科学, 2024, 46(11): 2045-2052.
[6]	潘雨青, 于浩, 李峰. 基于加权非负矩阵分解的异常声音检测方法研究[J]. 计算机工程与科学, 2024, 46(08): 1425-1432.
[7]	田红鹏, 吴璟玮. RIB-NER：基于跨度的中文命名实体识别模型[J]. 计算机工程与科学, 2024, 46(07): 1311-1320.
[8]	尹春勇, 赵峰. 基于双层注意力和深度自编码器的时间序列异常检测模型[J]. 计算机工程与科学, 2024, 46(05): 826-835.
[9]	马长林, 孙状. 基于实体知识的远程监督关系抽取[J]. 计算机工程与科学, 2024, 46(05): 945-950.
[10]	陈杰, 李程, 刘仲. 面向多核向量加速器的卷积神经网络推理和训练向量化方法[J]. 计算机工程与科学, 2024, 46(04): 580-589.
[11]	曹浩东, 汪海涛, 贺建峰. 融合序列局部信息的日期感知序列推荐算法[J]. 计算机工程与科学, 2024, 46(04): 734-742.
[12]	秦文强, 吴仲城, 张俊, 李芳, . 基于异构平台的卷积神经网络加速系统设计[J]. 计算机工程与科学, 2024, 46(01): 12-20.
[13]	周理, 赵祉乔, 潘国腾, 铁俊波, 赵王. 基于RISC-V的图卷积神经网络加速器设计[J]. 计算机工程与科学, 2023, 45(12): 2113-2120.
[14]	余子丞, 凌捷. 基于Transformer和多特征融合的DGA域名检测方法[J]. 计算机工程与科学, 2023, 45(08): 1416-1423.
[15]	刘俊奇, 涂文轩, 祝恩. 图卷积神经网络综述[J]. 计算机工程与科学, 2023, 45(08): 1472-1481.