并行计算是实现高性能计算的主要技术手段。本文回顾了并行计算技术六十多年来的发展历史,重温了并行可扩展性度量公式在并行计算发展进程中的重要地位。分析了并行计算向未来E级计算发展时面临的挑战,并建立了新的并行计算可扩展性度量模型,建模了访存、通信、可靠性、能耗等影响E级计算的因素。通过定量分析,发现和研究了并行计算向更高性能发展面临的可扩展性"墙"。最后,针对我国国情,提出了作者关于我国高性能计算未来发展的体会与思考。
本文根据中国高性能计算机TOP100排行榜十年发布的数据,对国内高性能计算机的发展历史和现状从总体性能、制造商、行业领域等方面进行了深入分析和回顾。论述了继续采用Linpack测试标准的合理性,探讨了增加系统Linpack测试成功率作为系统可靠性度量指标的可行性,重申了执行中国HPC TOP100申报和检验流程等规定的重要性。
高性能计算技术以加速度迅猛发展,继千万亿次系统研制成功以后,超级计算机的性能又快速提升至数万万亿次,国际学术界与工业界普遍预期在2018年左右将出现极大规模并行的百万万亿次系统(Exascale Computing,简称E级系统)。本文从最新一届TOP500榜单入手分析了超级计算领域的技术动态,在此基础上,探讨了未来E级系统的发展趋势及其所面临的能耗、可扩展、可靠性和可编程性等关键技术问题。
本文提出了一种解决超级计算机中系统级节能问题的方案,采用共享计算机资源实时任务执行概率和节点机安全切入和切出机制,实现了超级计算机系统中负载检测统计和预测以及节能安全决策。初步实验表明,本文提出的节能安全决策方法可以实现较多节能,其节能效果受限于具体的系统模型、开销模型和负载预测结果。
量子算法与物理实现是量子计算机研究中的两个基本问题。本文首先总结了相关领域的主要进展,并讨论了有代表性的量子算法,特别介绍了用于求解线性方程组的量子算法,分析了影响新量子算法提出的因素。然后,探讨了物理实现的迪文森佐判据,并介绍了典型的实现方案及性能比较。同时,也关注了对量子计算机研究持有异议的观点。最后,对量子计算机的新研究方向作了探讨。
戈登奖(Gordon Bell Prize)是高性能计算应用领域的最高学术奖项。与TOP500重视衡量高性能计算机系统性能相比,该奖项更关注用于解决重要科学问题的高性能计算技术创新,是国际上公认的高性能计算应用技术发展水平的重要标杆。本文综合分析近年来戈登奖的获奖研究成果,尤其是最高性能奖和特别奖的研究特点及科学意义。在此基础上,总结规律,并就如何推进高性能计算应用研究,给出了一些思考,以期为我国从事超级计算应用研究的同仁提供参考。
差分-谱方法通常在槽道湍流的直接数值模拟中使用,本文主要研究差分谱方法在单GPU卡上的实现。由于GPU的硬件发展十分迅速,不同的GPU硬件对双精度计算的支持有所不同,本文首先验证GPU上数值计算的精度,用差分谱混合法求解标量扩散方程,并将GPU和CPU上获取的数值结果与解析解进行对比,以确定GPU上数值算法实现的精确度。标量扩散方程在Nvidia S2050单GPU卡上求解,获得接近20倍的加速比,三维不可压缩NavierStokes方程达到了25倍的加速比。
本文提出了一种适用刀片式结构超级计算机的优化供电方式,将刀片式结构超级计算机供电广泛采用的两级直流母线、三级电源变换的供电方式改为一级直流母线和两级电源变换,同时仍保留了可接入后援蓄电池的直流电输入接口。文中对在超级计算机上实现这种优化供电方式的主要技术难点进行了论述,并提供了详细的解决方案。这种优化的供电方式已经在某超级计算机系统中得到了实际应用。应用效果证明,这种供电方式能够提高供电效率,降低电源成本,减少电源器件对插件板板面的占用,提高电源系统的可靠性。对在电源系统设计工作中如何降低超级计算机能耗的其他方法也做了简要介绍。
通过求解RANS方程和Menter's kOmega SST两方程湍流模型,以及采用多重网格加速收敛技术、基于多块结构网格的通用数据传输方法和区域分解负载平衡技术,实现CFD软件的并行计算。在国家超算长沙中心的“天河”系统上完成了软件的移植、测试,并实现翼身组合体外形的2048处理器核数、网格规模上亿单元的大规模并行计算,并行效率达到48%,较大幅度地缩短了计算周期,提高了工作效率。通过对DLRF6的模拟,在气动力系数精确求解、超大规模网格模拟的快速收敛和网格收敛性研究等方面取得了初步结果,为下一步大规模工程实际应用打下了坚实基础。
基于JASMIN框架,本文设计了多块结构网格拼接的并行算法并研制了相应的软件模块。该模块设计实现了网格块间关系统一描述算法,及网格片间统一通信调度策略,从而有效解决了多块结构网格拼接并行计算中的通信性能瓶颈问题。同时,该模块封装了数据分布存储、数据通信等并行计算细节,提供了规范接口,能够支撑用户简便地实现多块结构网格拼接并行计算。数值测试表明,该模块具有很好的并行性能,可以支撑应用程序扩展到上千核。
基于虚拟机技术的服务器整合可以提高系统能效,但虚拟化机制的隔离效应为功耗管理带来新的挑战。本文面向虚拟化计算环境,提出虚拟机内外相结合的两级功耗管理模型;设计了功耗行为多级监控框架;提出功耗管理机制虚拟化映射并设计了满足虚设备性能需求的物理速率映射算法;实现了用户透明的功耗管理虚拟化方案。实验表明,本文提出的功耗管理虚拟化技术支持用户透明的功耗管理,对系统性能的影响不足1%,满足高端计算需求。
相对于一致加密网格,SAMR网格可以在保持相同数值模拟精度的前提下,大幅度减少网格数目,缩短计算时间。针对惯性约束聚变中的流体力学不稳定性数值模拟,基于JASMIN框架研制了二维多介质流体力学并行SAMR应用程序。在数百个CPU核上模拟了压缩内爆模型,数值模拟结果和并行性能分析显示了应用程序的正确性和并行实现的高效率。
功耗问题是未来高性能计算机系统性能提高面临的最突出问题之一,本文调查典型的低功耗技术动态电压调节应用于高性能计算机系统的有效性。建立了动态电压调节技术在高性能计算领域的能耗模型,提出了程序运行时钟能耗和真实能耗的概念。在三种典型的计算机系统上,使用智能功率仪表测试使用动态电压调节技术后的系统能耗,说明了动态电压调节技术在高性能计算领域节能降耗的有效性。
本文通过对各种热插拔控制策略的研究,针对新一代高性能计算机系统采用的12V直流母线供电结构,对该系统刀片式插件进行热插拔电路设计。采用最新的具有PMBusTM通信接口的控制技术实现了对刀片式插件电源总线的测量、保护和控制,并对电路进行了实验测试。该设计技术将应用于新一代超级计算机各类插件板上。
本文主要报道了我们近年来在银河并行机上采用五阶WENO格式所做的一系列直接数值模拟研究,主要包括激波与单旋涡相互作用、激波与旋涡对相互作用、激波与三维纵向旋涡的相互作用,以及可压缩各向同性湍流。研究的主要目的是揭示激波与旋涡间相互作用中的激波动力学特性、旋涡变形、旋涡破裂和声波的产生机理,以及湍流等多尺度复杂流动的流场结构和流动机理。研究表明,高阶WENO格式具有很好的分辨率和稳定性,是研究上述包含强间断与复杂流场结构的流动的理想数值方法。研究发现,激波与强旋涡相互作用具有多级特征,即激波与初始旋涡的相互作用、反射激波与变形旋涡的相互作用、小激波与变形旋涡的相互作用。激波与旋涡对相互作用中产生的声波包含两个区域:线性区和非线性区。在线性区,激波与旋涡对相互作用产生的声波是激波分别与每个旋涡单独作用产生的声波的线性叠加;而在非线性区则与激波和耦合旋涡对的作用有关。在激波与纵向旋涡的相互作用过程中,发现旋涡破裂区存在多螺旋结构。在高初始湍流马赫数的各向同性湍流脉动场中,也发现了广泛报导的“小激波”的存在,这是可压缩湍流有别于不可压缩湍流的显著结构特征。
自洽场理论的数值计算方法在聚合物热力学的研究中得到了广泛的应用,尤其应用在嵌段共聚物微相分离形态的预测和描述方面[1~6]。该理论方法灵活性较强,参数空间的调整范围较大,能应用的计算体系也变化多样,难以建立固定的既有软件包,现有文献也鲜见针对该理论算法并行化的研究。本文就该理论在嵌段共聚物自组装问题上的数值计算的并行算法实现进行了研究和讨论,给出了算法性能的理论分析,并进行了实验测试。测试结果显示,本文提出的并行算法可获得良好的并行加速比,并行效率较高。该算法的提出有助于推动包括针对聚合物在内的软物质理论的研究工作。
高效数据结构及并行算法是大规模并行有限元计算的关键。本文面向非结构网格,提出了一种层次化的数据结构,并在该数据结构基础上设计了并行有限元算法。最后,用数值算例验证了数据结构和并行算法的正确性和并行可扩展性。
在高性能互连网络设计中,缩短通信延迟一直是设计的首要目标之一。虚跨步交换技术是一种降低延迟的有效手段,但是在有限的输入缓冲区条件下,在链路层上实现高效可靠传输具有一定的挑战性。本文提出了一种可靠的低延迟链路层设计方法,可实现对虚跨步的有效支持,减少了报文在中间路由器上的延迟。该方法结合了报文格式设计、发送方管理和接收方管理。通过在报文头中加入额外的校验码,有效地保护了报文头中的信息,提高了链路的容错能力;通过链路级重传,减少了端到端重传引起的时间、协议开销;通过对接收处理逻辑,尤其是接收缓冲区管理的有效实现,避免了可能出现的缓冲区溢出以及流控失效问题。
针对高性能计算能耗墙挑战,本文提出了一种基于历史空闲信息的资源状态管理算法-PARC。PARC算法记录结点的空闲历史信息,动态设定空闲结点进入休眠状态的时机。模拟实验表明,PARC算法能够在有效控制结点能耗状态切换次数的同时实现有效的节能。
遥感图像融合是遥感图像应用的一个重要处理步骤。随着遥感图像数据规模与融合算法计算复杂度的增大,遥感图像融合面临着处理速度的挑战。最近几年,GPU计算能力得到极大提升,面向通用计算的应用得到了快速发展。本文基于GPU编程模型和硬件特性,深入研究了遥感图像融合的并行加速算法,提出了适合融合执行流的并行映射模型。本文选取计算量大、计算精度高的IHS增强小波融合算法进行GPU并行设计,并针对主流的GPU平台在数据传输、循环优化、线程设计等方面进行了优化,最后在nVIDIA GTX 460 GPU上进行了实验。实验结果表明,本文设计的并行映射模型及优化策略能够很好地适用于遥感图像融合应用,最大加速比达到了114倍。研究表明,GPU通用计算技术在遥感图像处理领域具有广阔的应用前景。
可视分析是大规模科学计算重要的辅助工具,面对不断增长的计算规模,需要高分辨率显示来提高可视化结果的可信度。合理配置可视化硬件系统,建立拥有独立研究、团队讨论、专家会诊模式的协调可视分析环境,结合具有对比、查询和多变量分析能力的并行分布可视分析软件平台,为大规模科学计算提供有效的辅助分析环境,提高研究效率。
POP是一种全球海洋环流模式,广泛应用于海洋研究和气候预测。但是,随着模式分辨率的提高,POP对计算能力的需求呈几何级数增长,从而限制了POP模式的发展。本文在分析POP原理和特征的基础上,采用CUDA Fortran编程模型将POP模式移植到GPU平台上,并采用了网格块间并行和网格块内并行相结合的多层次并行实现全局存储器合并访问,减少局部存储器的使用,利用寄存器提高数据重用度和增大GPU端代码以减少CPU与GPU间的通信等优化策略。实验结果表明,与运行在Intel Xeon X5675 6核处理器上的串行程序和6进程并行程序相比,GPUPOP可以分别获得8.47倍和1.5倍的加速效果。
本文采用MPI消息传递模式自主开发出适用于高超声速流动数值模拟的并行计算软件,该软件以三维NavierStokes方程为基本控制方程来求解层流问题,应用基于结构网格的有限体积法对计算域进行离散,采用AUSMPW+格式求解对流通量,利用MUSCL插值方法获得高阶精度,时间格式上采用LUSGS方法进行时间迭代以加快求解定常流动的收敛过程。在高性能计算机上针对不同高超声速流动进行大规模并行计算的结果表明,所开发的CFD并行计算软件具有较高的并行计算效率,为高超声速飞行器气动力/热的准确预测提供了高效工具。
在科学与工程计算中,在数千上万核上,模拟包含上亿网格单元的模型通常输出TB量级的时变数据集。这些数据集包含多个时刻的数据,每个时刻的数据分布存储在数千个文件,单时刻的数据量达到几GB甚至几十GB。为了并行地可视化这种时变数据集,本文设计了基于网格片的层次化数据结构,基于该数据结构改进和优化了并行可视化流程和数据通信算法。在集成到可视化软件后,实现了两个应用的模拟结果可视化。实测数据表明,对于单时刻5GB和32GB的数据,在数十上百个处理器核上,从数据读入到获得体绘制结果的时间分别为19秒和80秒,交互操作为2秒到10秒;三维面绘制在数秒钟内,切片分析在2秒以内。
流体和固体之间的耦合作用在工程领域中有非常广泛的应用,对这类问题的求解一直是工程上的难点。本文介绍了一种流固耦合求解方法,采用CFX 和ANSYS软件分别对流体域和结构域进行求解,其耦合面的数据交换以MFXANSYS/CFX为平台,并通过实例验证了流体和结构之间的耦合效应。同时,基于“魔方”高性能计算平台,探讨了这类问题的并行求解算法以及在不同处理器数目下的计算效率,为该类方法的大规模计算以及更好地发挥并行计算优势提供参考。
本文首先对高性能计算和“天河一号”超级计算机进行了简要概述。随后详细描述了高性能计算在生命科学领域中的两大重要应用:一个是生物大分子的动力学模拟,介绍用户在“天河一号”取得的一些应用成果和进行的应用性能测试;另一个是生物信息学研究,重点介绍了华大基因在基于“天河一号”开展的GPU并行软件测试取得的良好结果。最后展望了高性能计算在生命科学领域中的发展趋势。
安装在国家超级计算天津中心(以下简称天津超算中心)的“天河一号”超级计算机系统是目前世界上最快的超级计算机,已广泛应用于多个高性能计算领域,并取得了一系列具有国际影响力的应用成果。本文主要介绍了“天河一号”在石油勘探数据处理、生物信息与生物医药、环境科学、工程仿真、磁约束聚变领域的最新应用成果,其成果表明“天河一号”在上述领域具有良好的可扩展性和并行效率,对自主科技创新和产业技术提升给予了巨大支撑。
未来100P/E级高性能计算机系统对网络的传输可靠性、性能均衡性、可扩展性方面有更高的需求。本文提出的RDMA传输模型,采取配置少量资源,动态连接使用的策略实现端到端的数据可靠传输。与传统的可靠通信协议如Infiniband相比,本方案的优势为:(1)支持自动重路由,可绕过网络故障区域保证消息的可靠传输;(2)支持报文乱序到达,支持源和目的间的多路径传输,提供消息的流控机制,能较好地均衡网络整体性能,减少网络热点和缓解网络拥塞;(3)基于通信接口硬件实现可靠性数据结构,不需要消耗主存为通信建立连接,具有极高的系统可扩展性。初步测试结果表明,采取了优化措施后,该协议不会增加小于4K字节消息的传输延迟。
本文介绍了高性能并行计算在CFD数值模拟中的应用。CFD高性能并行计算可扩大求解规模,加快求解速度,是CFD实现高效计算的必然发展趋势。本文通过“数值风洞”的概念分析了CFD高性能计算的应用前景及对高性能计算的需求。通过某乘波飞行器前体并行算例对8~256CPU的CFD大规模并行效率和加速比进行了分析,并将CFD并行计算应用于高温热化学非平衡的返回舱数值计算中。