• 中国计算机学会会刊
  • 中国科技核心期刊
  • 中文核心期刊

J4 ›› 2010, Vol. 32 ›› Issue (10): 34-37.doi: 10.3969/j.issn.1007130X.2010.

• 论文 • 上一篇    下一篇

大矩阵QR分解的FPGA设计与实现

周杰1,陈啸洋1,赵建勋2,窦勇1   

  1. (1.分布与并行处理国防科技重点实验室,湖南 长沙 410073;2.装甲兵工程学院,北京 100072)
  • 收稿日期:2009-04-13 修回日期:2009-07-10 出版日期:2010-09-29 发布日期:2010-09-29
  • 作者简介:周杰(1980),男,山西运城人,博士生,研究方向为高性能嵌入式体系结构;陈啸洋,研究方向为系统结构;赵建勋,讲师,研究方向为系统结构;窦勇,教授,博士生导师,研究方向为高性能系统结构和可重构计算。
  • 基金资助:

    国家自然科学基金资助项目(60633050,60833004)

The FPGA Implementation of LargeScale QR Decomposition

ZHOU Jie1,CHEN Xiaoyang1,ZHAO Jianxun2,DOU Yong1   

  1. (1.National Laboratory for Parallel and Distributed Processing,Changsha 410073;
    2.Academy of Armored Forces Engineering,Beijing 100072,China)
  • Received:2009-04-13 Revised:2009-07-10 Online:2010-09-29 Published:2010-09-29

摘要:

大规模QR分解在信号处理、图像处理、计算结构力学等领域有着广泛的应用。大规模矩阵QR分解主要在高性能并行机上进行运算,目前还没有基于FPGA平台的加速实现。本文在分析快速Givens Rotation QR分解算法特征的基础上,提出并实现了一种细粒度并行QR分解算法,并在Altera StratixII FPGA平台上实现可扩展QR分解线性阵列处理器。相对于单处理单元,该阵列处理器可取得近似线性加速比,显示了良好的可扩展性。在100MHz频率下的性能测试结果表明,相对于2.0GHz的Pentium双核通用微处理器,该阵列处理器可取得19倍的加速比。

关键词: 大规模, QR分解, 阵列处理器, FPGA

Abstract:

Largescale QR decomposition is widely used in many fields,such as signal processing,large image processing,and computational structure dynamics,and so on. Traditional methods adopt  parallel computers to accelerate  largescale QR decomposition,which is a computationintensive algorithm. This paper presents a finegrained parallel implementation of Givens Rotation QR decomposition on FPGA. A scalable linear array of processing elements (PEs),which is the core component of our hardware design,is proposed to implement this algorithm. To our knowledge,this is the first  FPGAbased implementation of largescale QR decomposition. A total of 15 GRPEs can be integrated into an Altera StratixII EP2S130F1020C5 FPGA.The experimental results show that a speedup up to 19 can be achieved relative to the Pentium Dual CPU.

Key words: largescale;QR decomposition;linear array processor;FPGA