• 中国计算机学会会刊
  • 中国科技核心期刊
  • 中文核心期刊

J4 ›› 2010, Vol. 32 ›› Issue (9): 102-106.doi: 10.3969/j.issn.1007130X.2010.

• 论文 • 上一篇    下一篇

Cholesky分解细粒度并行算法

邬贵明,窦勇,王淼   

  1. (国防科学技术大学计算机学院,湖南 长沙 410073)
  • 收稿日期:2010-03-11 修回日期:2010-06-19 出版日期:2010-09-02 发布日期:2010-09-02
  • 作者简介:邬贵明(1981),男,四川内江人,博士生,研究方向为可重构计算、高性能计算机体系结构;窦勇,博士,教授,博士生导师,研究方向为可重构计算、高性能计算机体系结构;王淼,博士生,研究方向为并行编译技术。
  • 基金资助:

    国家自然科学基金资助项目(60633050,60833004)

A FineGrained Parallel Algorithm for the Cholesky Decomposition

WU Guiming,DOU Yong,WANG Miao   

  1. (School of Computer Science,National University of Defense Technology,Changsha 410073,China)
  • Received:2010-03-11 Revised:2010-06-19 Online:2010-09-02 Published:2010-09-02

摘要:

本文提出了一种Cholesky分解细粒度流水线并行算法,该算法可以处理任意规模的数据,可以充分开发FPGA加速器提供的细粒度并行。实验表明,该算法具有很好的可扩展性,在Xilinx XC5VLX330 FPGA上能够集成36个处理单元(PE),当矩阵的阶为16 384、运行频率为200MHz时性能达到14.3 GFLOPS。

关键词: Cholesky分解, 细粒度并行, FPGA

Abstract:

This paper presents a finegrained pipeline parallel algorithm for the Cholesky decomposition, which is applicable to the matrices of arbitrary orders and can exploit finegrained parallelism of the FPGA accelerators. The experimental results show this algorithm has good scalability. 36 processing elements (PEs) can be integrated into a Xilinx XC5VLX330 FPGA, achieving a performance of 14.3 Gflops when the matrix order is 16 384 at the clock speed of 200 MHz.

Key words: Cholesky decomposition;finegrained parallelism;FPGA