计算机工程与科学

2013年中国高性能计算机发展现状分析及系统测评技术简析

袁国兴1，孙家昶2，张林波3，张云泉4

2013, 35(11): 1-5. doi:

摘要 ( 180 )

PDF (1063KB) ( 413 ) 　　

根据2013年11月发布的中国高性能计算机性能TOP100排行榜的数据，对国内高性能计算机的发展现状从总体性能、制造商、行业领域等方面进行了深入分析。同时，对高性能计算机系统的测评技术，尤其是对用作排行榜性能测试的Linpack和国内外最近关注的HPCG两个软件包进行了简要分析。

高性能计算机系统及平台发展状况分析

迟学斌，顾蓓蓓，武虹，王龙，朱鹏

2013, 35(11): 6-13. doi:

摘要 ( 206 )

PDF (660KB) ( 520 ) 　　

近年来，随着国家级高性能计算平台的相继建立，超级计算中心的运维模式也从过去强调购置开销向注重运营管理成本转变。在分析相关技术与应用发展趋势的同时，从高性能计算机系统、芯片等硬件设施和超级计算中心自身及应用等软环境两方面对超级计算中心发展现状做出分析，探讨制约超级计算中心可持续发展的相关问题。

延时敏感的推测多线程调度策略

李艳华，张悠慧，王为，郑纬民

2013, 35(11): 14-21. doi:

摘要 ( 162 )

PDF (800KB) ( 335 ) 　　

随着大规模片上多核处理器的发展，越来越多的核被集成到一个芯片上。一方面，总会有一些核处于空闲状态；另一方面，受功耗限制片上单核比较简单，导致单线程性能较弱。通过在片上多核处理器上支持推测多线程机制，可以利用空闲的片上资源来加速串行程序执行，提高单线程性能。决定推测多线程执行性能的一些额外开销，比如缓存缺失率上升、冲突检测开销、线程提交开销以及推测线程重新执行开销等，对片上多核处理器访存时延和核间通信时延非常敏感。传统的多线程调度算法因为没有考虑到推测多线程机制的特点，在用于推测多线程调度时效果不佳。提出的延时敏感的推测多线程调度算法，利用推测多线程在剖析、编译阶段产生的访存特性统计和实时访存记录，计算程序的数据重心,逐步将推测多线程调度到数据重心周围的相邻几个核中执行；同时，在推测线程调度过程中充分利用提交成功的线程和推测失败的线程留在缓存中的数据，提高缓存利用率。实验结果表明，推测多线程机制执行中，采用延时敏感的推测多线程调度策略相对于广泛采用的优先级调度策略能够取得平均16.8%的性能提升；相对于最近提出的基于非一致性数据访问优化的集群线程调度策略能够取得平均10.1%的性能提升。

新型适应性路由器微体系结构研究

肖灿文,戴泽福,张民选

2013, 35(11): 22-26. doi:

摘要 ( 159 )

PDF (777KB) ( 286 ) 　　

路由器芯片是互连网络的核心部件。介绍一种支持完全适应性维度气泡路由的新型路由器微体系结构。针对维度气泡完全适应性路由算法的特点，优化设计了路由器的输入缓冲以及仲裁开关逻辑。采用DC工具评估了新型路由器的面积以及延迟。实验结果表明，相对基于Duato方法的适应性路由器芯片，新型路由器芯片更容易获得更高的主频。

一种基于聚类的大规模单体分型算法

潘玮华，陈波，徐云

2013, 35(11): 27-33. doi:

摘要 ( 144 )

PDF (628KB) ( 288 ) 　　

大规模单体分型问题是生物遗传分析领域一个重要的基础性问题。针对现有算法求解大规模单体分型问题时存在的缺陷，在原有WinHAP算法的基础上引入聚类思想，提出一种基于聚类的WinHAP算法。该算法在保证原算法精度不下降的前提下，大大提高了算法的计算速度，降低了空间消耗，并具有空间需求与序列条数无关这一优良特性，因此特别适合处理超大规模的数据集。在SIMD共享存储模型下对算法进行了并行化，并设计了基于贪心的线程任务分配策略，获得了接近线性的加速比。

大点数一维FFT的GPU设计实现

何涛1,2,朱岱寅1

2013, 35(11): 34-41. doi:

摘要 ( 267 )

PDF (1345KB) ( 361 ) 　　

鉴于GPU强大的计算性能以及先进的并行处理器架构，主要研究一种将FFT的并行算法映射到CUDA模型的并行设计方法。该设计方法遵循如减少内核函数中的全局存储器访问、全局存储器合并访问、高效利用共享存储器、高密集度计算等GPU平台下主要的设计准则进行优化设计，并在基于NVIDIA Fermi处理架构的Tesla C2075 GPU平台上进行了大点数一维FFT设计实现。实验结果表明了该方法的可行性及高效性，在256K点范围内性能优于CUFFT库，加速比最高达到CUFFT 4.0库的2.1倍。

非对称交叉开关优化与设计

王永庆1,王克非1,肖立权1,刘路1，庞征斌2

2013, 35(11): 42-47. doi:

摘要 ( 144 )

PDF (863KB) ( 283 ) 　　

高阶路由器设计面临的主要挑战之一是队头阻塞。提出了一种有效缓解队头阻塞的高阶路由器组织结构OEASC。OEASC使用两种技术来解决队头阻塞，一是采用非对称交叉开关的交换结构ASC，N×N交叉开关可以使用N/m个小型的m×N交叉开关来实现，降低输入端口间发生冲突的概率；二是奇偶队列机制，高效地利用存储资源，降低输入端口内冲突的概率，从而获得很高的吞吐率。对异构交叉开关的吞吐率模型进行了理论分析和模拟验证，给出了OEASC交叉开关的逻辑结构和瓦片化微结构。模拟结果表明，OEASC基本消除了队头阻塞，在有限输入队列长度时吞吐率可以达到98.6%。与采用队列长度为16的ASC相比，吞吐率提高了7.9%，使用一半的缓冲区即可达到与ASC相近的性能。

基于集群平台的SAR成像算法多级通信延迟隐藏技术

杜静，敖富江，郭晋，周颖

2013, 35(11): 48-53. doi:

摘要 ( 148 )

PDF (1036KB) ( 328 ) 　　

实时合成孔径雷达（SAR）成像技术是当前军事和遥感领域的研究热点。SAR成像算法具有庞大的数据
量和运算量，对高性能计算的需求巨大，适合采用以集群系统为代表的高性能计算机进行性能加速。依据集
群系统的分布存储特性，通信延迟是集群上程序性能提升的首要优化因素。为此，以集群系统为平台，深入
研究SAR成像算法的多级延迟隐藏技术，重点对线程安全队列、非阻塞通信和多线程分块通信三种关键技术
进行研究，并确定了适合于通信延迟隐藏的最优通信块规模。实验结果表明，经过通信延迟隐藏优化的SAR
成像程序具有较高的网络利用率，能显著提升性能。

多集群计算环境故障监控管理系统

张毅，陈良，庞剑

2013, 35(11): 54-61. doi:

摘要 ( 138 )

PDF (1013KB) ( 385 ) 　　

随着高性能计算集群系统的数量及其节点规模的不断扩大，系统运行维护的难度和工作量也随之加大

。介绍的软件系统工作在多套不同软硬件环境的Linux集群系统中，采用命令行脚本程序对各集群中重要的

运行状态和指标进行自动监测，并利用socket通信的方式及时将发现的故障信息集中发送到系统管理员

Windows终端，切实提高了系统运行维护工作的效率，加快了故障处理响应时间。该系统还利用数据库对故

障事件数据进行记录管理，规范了故障处理的流程。

大规模粒子团簇识别分析

沈卫超1,2，曹立强2，夏芳1,2

2013, 35(11): 62-67. doi:

摘要 ( 141 )

PDF (897KB) ( 320 ) 　　

团簇识别是分子动力学数值模拟数据后处理团簇分析中的一个共性问题。面向JASMIN粒子数值模拟程

序输出的可视化数据，设计实现了团簇识别并行算法与团簇分析并行工具。工具提供了三种并行模式：时间

维并行、空间维并行、时空维混合并行。使用基于PIC网格加速的广度优先搜索算法，通过虚拟网格片索引

直接在多网格片数据上实现团簇识别。团簇分析并行工具应用在千万粒子规模的实际数值模拟数据时具有很

好的并行扩展性。

非合约对地观测数据源的动态汇聚

黄克颖1,3，高玥2，李国庆1

2013, 35(11): 68-75. doi:

摘要 ( 154 )

PDF (1100KB) ( 411 ) 　　

互联网上存在大量的免费、公开、有价值的非合约形式的对地观测数据源，这些数据源具有网页查询

入口、海量数据隐藏在后台的大型数据库且数据共享平台多样、不同种类空间数据平台难以互联等特点，难

以利用传统技术实现数据汇聚和共享。在阐述目前遇到的问题后，提出了一种基于暗网爬虫架构的非合约异

构分布式数据源被动汇聚架构；设计出一套数据源识别标准、非合约式数据源发现机制、非合约式数据源搜

索条件树构建模式、非合约式数据源索引机制以及数据源异步更新规则，成功汇聚了分布在国际上不同网络

域的五个大型对地观测数据源，包括NASA、USGS、ASAR等三个国际上使用较为广泛的运行性数据源；形成了

对地观测数据资源自动化汇聚和更新工具集，最终使用户可以通过统一查询界面获取非合约对地观测数据资

源信息。

分数阶微分方程的一种细粒度数据级并行算法

龚春叶1,2,3,包为民1,闵昌万1,张烨琛1，刘杰3

2013, 35(11): 76-79. doi:

摘要 ( 228 )

PDF (497KB) ( 418 ) 　　

在GPU上基于CUDA编程模型提出针对Riesz空间分数阶扩散方程显式有限差分法的细粒度数据级并行算法。对算术逻辑操作的基本CUDA核心的细节及网格点值的计算优化进行了描述。实验结果表明，本文提出的并行算法与精确解符合得很好, 在NVIDIA Quadro FX 5800 GPU上的运行速度超过多核Intel Xeon E5540 CPU并行算法的运行速度四倍有余。关键词：

性能不对称多核处理器负载均衡调度研究

徐远超1,2,谭旭2,3,范灵俊2,3,孙卫真1，张志敏2

2013, 35(11): 80-86. doi:

摘要 ( 150 )

PDF (909KB) ( 387 ) 　　

同等面积条件下，性能不对称异构多核处理器比同构多核处理器具有更好的性能功耗比，重要前提是操作系统要能够进行合理的任务调度。针对已有算法的不足，基于Linux现有调度框架提出了一种全面的异构感知负载均衡策略，保证了处理器核负载均衡优先原则，无需定义阈值区分程序类别。测试结果表明，该算法既能做到负载均衡，又能实现异构感知。

一种混合计算环境下的MapReduce并行模型

唐兵1，贺海武2

2013, 35(11): 87-93. doi:

摘要 ( 143 )

PDF (726KB) ( 336 ) 　　

提出了一种混合计算环境下的MapReduce并行计算模型，利用该模型可以将高性能集群节点与Internet或Intranet下异构的桌面PC组成混合计算环境，在该混合环境下运行MapReduce任务进行海量数据分析处理，充分利用了大规模桌面PC的计算与存储能力。与Hadoop类似，该模型分为存储层和任务层两层。对该模型及其核心的HybridDFS分布式文件系统和MapReduce算法进行了简单描述，进而设计并实现了一个原型系统，并对其进行了性能测试。测试结果表明，提出的混合计算模型不仅能够实现可靠的MapReduce计算，而且降低了计算的成本开销，具有非常大的潜力。

PEAK：一种面向弱节点集群的并行可演化管理框架

张鲁飞，吴东，谢向辉

2013, 35(11): 94-99. doi:

摘要 ( 168 )

PDF (813KB) ( 374 ) 　　

弱节点集群Ant II是一种面向低功耗数据密集型计算的体系结构，由若干低功耗嵌入式处理器和固态存储紧耦合而成。面向弱节点集群特殊的应用需求和硬件架构，提出了一种具备自愈、热升级的分布式存储和计算框架PEAK。用原生并行编程语言Erlang开发，利用监控树和代码热替换技术等，保证系统的自愈、可演化;采用了去中心化可伸缩容错的Dynamo架构，保证分布式环境下系统的可用性和最终一致性；提出分布式元服务管理框架，提供高效灵活的基础服务部署与管理，可利用若干元服务快速构建PEAK；提供了key-value的存储方式和基于MapReduce的查询功能。测评结果显示PEAK可以很好地平衡计算和I/O能力，满足大规模并行数据访问需求。

基于NVIDIA Kepler的PIC方法并行

文敏华1,林新华1,2,Simon Chong Wee See 1,3

2013, 35(11): 100-104. doi:

摘要 ( 165 )

PDF (540KB) ( 282 ) 　　

PIC方法是计算等离子体物理中广泛使用的一种计算方法。通常情况下需要使用大量的计算粒子以达到高的计算精度，这导致非常庞大的计算量。因而PIC方法的加速研究对于减少其时间成本非常有意义。设计了一个基于NVIDIA Kepler GPU的PIC算法，并使用CUDA在GPU上实现了该算法。在PIC方法中最耗时间的两个函数collision和mover被移植到GPU上。在实验中使用了NVIDIA新发布的Kepler K20 GPU进行这两个函数的性能测试，相比于Intel Sandy Bridge E5-2650，最高获得了30倍的加速。

ANSYS和Abaqus软件GPU加速性能典型算例测试与分析

王惠,郭培卿,陈小龙

2013, 35(11): 105-110. doi:

摘要 ( 663 )

PDF (790KB) ( 623 ) 　　

在高性能计算领域，CPU/GPU异构协同处理技术已经成为快速获得计算结果的有效手段之一。典型结构力学计算软件ANSYS和Abaqus最新版本中加入了CPU/GPU协同处理技术，以进一步提高问题的求解效率。利用NVIDIA公司Tesla 系列M2090 GPU和上海超级计算中心“蜂鸟”超级计算平台，通过求解典型结构问题，对ANSYS和Abaqus软件在开启GPU加速功能前后对求解效率的影响进行了对比和分析。结果表明，当并行规模低于16核时，GPU加速能够不同程度地减少各类结构问题的求解时间，但加速效果随着并行规模的增加逐渐减弱，多GPU协同求解对加速性能的提高并不明显，在实际应用中，需要结合问题类型以及当前硬件架构选择合适的并行方式和协同处理模式。

高阶互连网络拓扑结构性能分析与研究

雷斐，董德尊，柴燕涛，王克非，李存禄

2013, 35(11): 111-118. doi:

摘要 ( 282 )

PDF (1094KB) ( 708 ) 　　

高性能计算机峰值性能的不断攀升给高性能互连网络带来新的挑战；同时，串行传输技术的发展使芯片引脚带宽增长，使用高阶路由器应对高性能互连网络新挑战的时机已经成熟。因此，如何利用高阶路由器所提供的丰富互连端口提升高性能互连网络的性能和减少高性能互连网络开销是设计高性能互连网络拓扑结构的关键。针对目前基于高阶路由器的典型拓扑结构进行了理论分析，并与传统k元n立方体进行了对比分析。通过在一个基于OMNeT++平台自组开发的高阶互连网络性能测评模拟器上设定不同的通信负载，测评分析了不同的拓扑结构在通信系统下实际的网络延迟和吞吐率的走势，简要分析了典型高阶互连网络拓扑结构的局限性。

面向多任务的GPU通用计算虚拟化技术研究

张云洲，袁家斌，吕相文

2013, 35(11): 119-125. doi:

摘要 ( 232 )

PDF (818KB) ( 525 ) 　　

随着硬件功能的不断丰富和软件开发环境的逐渐成熟，GPU在通用计算领域的应用越来越广泛，使用GPU集群来进行海量数据计算的例子不胜枚举。但是，相对于CPU，GPU的功耗较大，如果每个节点都配备GPU，则将大大增加集群的功耗。虚拟化技术的引入使得在虚拟机中利用GPU资源进行通用计算成为可能。为高效、充分地利用GPU，针对GPU的特点，提出了一种面向多任务的可动态调度、支持多用户并发的GPU虚拟化解决方案。在已有的GPU虚拟化方案的基础上，综合考虑虚拟机域间通信的通用性以及任务的周转时间，建立了CUDA管理端来对GPU资源进行统一管理。通过设置综合负载评价值实现负载均衡并降低任务的平均周转时间。在设计的系统上进行大规模矩阵运算实验，结果说明了GPU虚拟化方案在计算系统中的可行性和高效性。关键词：

高分辨率遥感影像居民区检测算法研究

张宁新，陈忠，郭莉莉，谢庭

2013, 35(11): 126-133. doi:

摘要 ( 134 )

PDF (3027KB) ( 351 ) 　　

居民区信息提取对于国土规划和人类安全具有重要的研究意义和实用价值，目前提出的居民区检测算法存在将稀疏植被检测成居民区的情况，降低了检测精度。为实现高精度与高效率的遥感影像居民区检测，在基于旋转不变性纹理特征的遥感影像居民区检测算法基础上，采用形态学Top-Hat变换进行光谱增强，有效抑制了稀疏植被的干扰；同时，采用MPI与OpenMP相结合的异步通信模型实现了该算法的并行化，提高了算法运行效率。实验结果表明,该改进算法的并行化实现，不仅提高了算法的精度和鲁棒性，而且解决了处理大影像时算法速度过慢的问题。关键词：居民区检测;灰度共生矩阵;纹理;旋转不变性;Top-Hat变换;并行计算

基于哈夫曼编码的稀疏矩阵的存储与计算

许彬彬，戴清平，朱敏，谢端强

2013, 35(11): 134-138. doi:

摘要 ( 173 )

PDF (378KB) ( 333 ) 　　

在科学计算中，稀疏矩阵与向量乘积SMVP是一个十分重要的计算内核，它的效率主要是由稀疏矩阵的存储模式及相应的SMVP算法所决定。为了在稀疏矩阵的存储模式方面获得较好的性能，在哈夫曼压缩编码的基础上，对现有的分块压缩行存储BCRS方法进行了改进，在一定程度上减少了冗余零元素的存储，并且给出了与新的BCRS方法相对应的SMVP算法。理论分析和数据实验表明，基于哈夫曼压缩编码的BCRS方法在数据复杂度方面优于原始的两种BCRS方法。关键词：

基于SOA建模仿真的云迁移适合度测评方法

刘裕1，周毅书2，王明哲1

2013, 35(11): 139-145. doi:

摘要 ( 144 )

PDF (1079KB) ( 298 ) 　　

云计算技术的快速发展影响着企业IT系统架构模式的转型，为了提升企业IT应用系统是否适合部署到私有云中的决策水平，提出一种基于面向服务体系架构（SOA）模型仿真的云迁移适合度测评方法。通过企业云应用系统体系结构视图模型建模和可执行着色Petri网（CPN）建模，从企业云应用需求和云服务属性两方面，创建云迁移适合度评价指标体系；采用定性与定量相结合的方式，展示了基于SOA建模与仿真的企业云迁移适合度网络分析法（ANP）综合测评过程与分析步骤。最后，利用一个企业应用案例验证了该方法的可行性和有效性。

高性能多精度乘法器设计

严忻恺,吴东,邬贵明,谢向辉

2013, 35(11): 146-152. doi:

摘要 ( 280 )

PDF (833KB) ( 552 ) 　　

针对当前硬件领域缺乏对不同乘法算法的实现和比较，对两种著名乘法算法的硬件实现进行了深入研究，在FPGA上实现了高性能多精度Karatsuba乘法器和Toom-3乘法器，并在实验比较分析后得出结论：Toom-3乘法器由于数据依赖性和除法运算在硬件实现下代价较大，且尚未有较优的解决方法；Karatsuba乘法器在中小精度下的性能和硬件开销均好于Toom-3乘法器。

面向互联网应用的图像LBP算法GPU并行加速

王香荣1，高飞1，李钦1，刘轶1，张阔2

2013, 35(11): 153-159. doi:

摘要 ( 162 )

PDF (829KB) ( 330 ) 　　

很多互联网应用需要进行海量的图片处理。LBP算法是一种图像纹理特征提取算法，广泛用于图像检索等领域，但该算法较为复杂，在处理互联网环境中的海量图片时面临着性能挑战。解决该问题的办法之一就是采用GPU对LBP算法进行并行加速，特别是针对海量图片处理设计加速方案，使GPU同时进行多幅图像LBP特征的并行提取，并采用异步传输方式使多幅图像数据的复制与Kernel函数的执行并行化。通过对GPU单幅和多幅图像并行处理的实验测试，并将实验数据与CPU程序性能进行对比分析，结果表明: 对不同分辨率多幅图像并行处理的加速比可达58倍。

GPU集群上的三维UPML-FDTD算法的实现及优化

徐磊，徐莹，蒋荣琳，张丹丹

2013, 35(11): 160-167. doi:

摘要 ( 189 )

PDF (984KB) ( 296 ) 　　

在高性能计算领域，拥有强大浮点计算能力的协处理器正在快速发展。近年来，利用协处理器(如GPU)来加速时域有限差分FDTD算法的计算过程成为电磁研究领域的热点问题。在GPU集群上实现了三维UPML-FDTD算法并进行了优化。采用电偶极子激励源对算法的模拟结果同解析解进行了验证，结果表明该算法具有较高的精度；同时，在NVIDIA Tesla M2070和K20m GPU集群上对FDTD算法的性能进行测试，对优化前后的计算结果以及GPU与CPU的计算性能进行了比较，并使用80块NVIDIA Tesla K20m GPU进行了可扩展性测试。从本文的研究结果可以看出，经过优化的FDTD算法性能有了较大的提升，而且FDTD算法在GPU集群上获得了比较理想的并行效率。

基于MPI+GPU的哼唱检索系统加速

姚光超，郑尧，肖利民，阮利

2013, 35(11): 168-174. doi:

摘要 ( 137 )

PDF (771KB) ( 295 ) 　　

由于利用MIDI文件中提取的特征和耗时的匹配算法，当前的哼唱检索系统可以实时处理的规模很小。由于SPRING算法显著降低了子序列匹配的复杂度，通过将哼唱检索抽象为一个子序列匹配问题，然后利用SPRING算法作为核心的匹配算法对音高序列进行子序列匹配，大大缩短了匹配时间。此外，利用GPU对SPRING算法进行加速，算法与串行算法相比获得接近40倍的加速比，使单节点每秒可以匹配的序列数目达到几千个。最后利用集群对系统进行加速。结果表明，我们的系统具有很好的扩展能力，同时检索的准确率也指明了当前的问题和今后的方向。

基于硬件事件的并行程序指令级性能模型与应用

罗红兵，武林平

2013, 35(11): 175-181. doi:

摘要 ( 117 )

PDF (771KB) ( 339 ) 　　

当前，应用程序持续运行性能与高性能计算机峰值性能的差距有扩大的趋势，许多实际应用程序的性能通常只能达到机器峰值性能的5%～10％，甚至更低，如何优化并行应用成为高性能计算领域关注的焦点。从如何利用硬件事件进行程序指令级优化入手，提出一种基于硬件事件的性能模型，揭示出程序性能与程序特征、微处理器特征的关系。基于该性能模型，在Intel Xeon微处理器平台上对Euler等程序进行优化，gas1dapproxy等性能热点模块的执行时间可以缩短12％～61％。性能优化实验表明：使用该性能模型可以降低用户进行指令级并行性能优化的难度，指导用户选择正确的性能优化方向。

一种并行作业任务启动模型及其可扩展性分析

宋长明,龚道永,张宏宇

2013, 35(11): 182-186. doi:

摘要 ( 124 )

PDF (707KB) ( 333 ) 　　

随着高性能计算机系统规模的不断扩大，作业启动的时间越来越长，大作业的启动时间逐渐成为影响系统规模扩展的一个重要因素。同时，元器件数目快速增长带来的更频繁的故障也使大规模并行应用在完成前可能经历多次反复提交，因此作业任务的启动效率也直接影响着系统计算资源的有效利用率和用户使用体验。通过设计一种层次式并行作业任务启动模型，并对其在不同作业规模下的性能进行测试、分析与优化，经过优化后该模型能够支持一个大规模系统的作业任务启动与控制，并具备较好的可扩展性。

广州超级计算中心应用发展分析

郑宁1,王冰1,党岗2,3

2013, 35(11): 187-190. doi:

摘要 ( 160 )

PDF (457KB) ( 423 ) 　　

广州超级计算中心装备着世界领先的超级计算机系统“天河二号”，如何用好该系统将成为超级计算中心发展的难点和关键。围绕广州超级计算中心建设目标，分析了广州主要产业的特点和高性能计算的巨大促进作用，提出三种运营模式和六种应用推广思路，初步探讨广州超级计算中心可持续发展方向。

当期目录

作者中心

审稿中心

在线期刊