根据2014年11月发布的中国高性能计算机性能TOP100排行榜的数据,对国内高性能计算机的发展现状从总体性能、制造商、行业领域等方面进行了讨论分析,同时对未来发展进行了展望。
分子动力学是高性能计算应用的重要领域,大量的高性能计算资源或机时被用于分子动力学模拟。描述了分子动力学的计算方法和特点,包括常用并行算法、性能改进方式等,介绍了常用的分子动力学大规模并行计算软件及其功能特性,最后展望了分子动力学模拟的发展与挑战。
针对海洋环境数值预报多模式、多耦合、多结果、多吞吐、多用户的特性,提出了建设面向海洋环境数值预报支撑平台框架,并设计实现了面向多耦合的在线式耦合器(HYCPL)、面向多模式的模式库、参数化方法库和统计方法库(HYLIB)、面向多结果的检验评估工具(HYET)、面向多吞吐的数据并行访问和存储工具(HYI/O)、面向多用户的模式运行环境一键式安装包(HY1KEY)等功能,为海洋环境数值预报系统提供了有效适用的支撑平台。
由于Web服务处在开放、动态、多变的网络环境下,为了有效响应用户需求、运行平台及外部环境的变化,服务必须具备演化的能力。演化后的服务应维持与原伙伴服务或服务用户之间的正常交互,这种性质称为演化一致性。由于Web环境的多样性,服务开发者对演化一致性的判定的标准并不统一。对于服务演化一致性判定问题,现有方法大多基于固定的判定标准,缺乏可调节、细粒度的定量分析且不能显式地反映服务版本之间的变化。针对上述不足,面向服务演化导致的变化,从服务的结构层和非功能层两个角度建立基于变化的服务描述模型,并在该模型的基础上引入演化一致度对演化一致性进行度量。基于所提出的方法,设计并实现了一个服务演化一致性判定工具,验证了所提出方法的可行性与有效性。
STREAM是微处理器上内存性能的基准测试程序,在多核多线程FT1000微处理器上发挥高性能是具有挑战性的研究工作。基于多级Cache结构,优化STREAM四个程序的指令流水线,根据寄存器数,设计了多级循环展开方法,根据指令延迟和Cache行的大小确定数据预取的数目,使用汇编语言编写了优化子程序。基于OpenMP并行环境,设计了STREAM并行程序,优化了局部化数据分配方式。数据测试结果表明,优化后的STREAM的性能比原始串行程序性能提高了19.2%~64.2%。优化后,并行程序的最高访存性能达到8.5 GB/s,对比优化前的最高访存性能最大提高了22.7%。
网络演算近年来已成为网络领域重要的性能分析工具之一,但是,传统的网络演算主要关注网络的QoS性质,通过计算数据流的最大数据积压、最大端到端延迟、服务曲线等来分析网络的性能。在高性能计算系统中,则主要关心网络系统的吞吐率、通信延迟以及网络的饱和参数等,传统的网络演算理论无法有效计算这些参数。将网络演算与排队论结合,定义和推导了网络演算下的通信延迟和吞吐率,构造了一套适合高性能网络分析的网络演算分析方法。基于设计的方法,通过对胖树网络下均匀流量模式的分析,表明本文所设计的方法能够有效分析高性能网络的通信延迟、吞吐率等参数,并能有效捕捉网络的饱和状态,与模拟器的对比结果也表明本文模型能够基本吻合仿真结果。
数字系统设计和信号完整性工程师面对25 Gbps信号传输挑战时,必须重视差分对内偏斜这个关键问题。先介绍差分对内偏斜产生的原因,然后从时域、频域分析了差分对内偏斜对25 Gbps背板信号完整性的影响,通过基于测试的通道仿真估算25 Gbps信号传输的差分对内偏斜容限;最后,提出了减少差分对内偏斜的工程处理方法。
MapReduce是一个能够对大规模数据进行分布式处理的框架,目前被各个领域广泛应用。在提供MapReduce服务的集群中,如何保证不同优先级用户的截止时间限定是MapReduce作业调度问题的一个挑战。针对这一问题,提出了一个基于排队网络的多优先级作业调度算法(MPSA)。首先分析和归纳了基于MapReduce模型的算法,提出了三种常见模式,采用Jackson排队网络对基于MapReduce模型的算法建立了数学模型,应用该网络模型可以求出不同优先级队列对资源的需求;随后使用AR(1)模型进行预测,使算法可以动态地适应不同的用户访问量;利用二分查找算法,分步计算出不同优先级在map阶段和reduce阶段分配的槽位数;最后实现了在MapReduce模型中应用的实时调度算法。实验结果表明,与传统的FIFO和公平调度算法相比,本文提出的算法在用户到达率和任务规模变化的情况下,可以更加有效地满足不同优先级用户的截止时间限定。
云存储技术已经成为当前互联网中共享存储和数据服务的基础技术,云存储系统普遍利用数据复制来提高数据可用性,增强系统容错能力和改善系统性能。提出了一种云存储系统中基于分簇的数据复制策略,该策略包括产生数据复制的时机判断、复制副本数量的决定以及如何放置复制所产生的数据副本。在放置数据副本时,设计了一种基于分簇的负载均衡副本放置方法。相关的仿真实验表明,提出的基于分簇的负载均衡副本放置方法是可行的,并且具有良好的性能。
高性能、低功耗且具有QoS保障的高能效问题是云计算领域的一个研究难点。目前的研究主要是通过限定一个约束条件寻求另外指标的最优来实现三者之间的折衷或均衡,缺乏一种有效的能效计算方法和评估模型将三者整合,以更好地描述云环境能效的“程度”。提出一种云环境下QoS参数的归约方法和加权的能效模型,把系统性能作为一个关键因素引入QoS,并将离散的多个QoS参数度量值归约到同一个量纲区域内,获得评价权重矩阵,求得用户最终的QoS评价值,以单位能耗所提供的整体QoS水平值作为能效值,并且建立云数据中心的能效分级标识,最终将云环境下能效值刻画为一个定性的概念,实现了对云环境下能效的定性评估。此外,分别对单机环境和同构、异构的云计算环境中云数据中心的能效进行了评估分析,并进行了实验验证。实验结果表明,所提出的能效模型和评估方法在评价云系统的QoS水平和能源消耗方面是有效的。
为使交换式以太网能满足实时通信的要求,针对FTTSE网络调度模型,提出了一种同时适用于周期性和非周期性实时消息的链路可调度性判定方法。在证明了消息链路调度优化问题MLSOP为NPcomplete的同时,针对周期性实时消息的链路调度优化给出了启发式算法LSHA。最后,对于周期性和非周期性实时消息分别设计了基于EDF的调度算法。仿真实验表明,在提高网络链路带宽利用率和减小消息平均延时方面,该算法均较FTTSE有明显的优势。
高光谱图像分类是遥感信息处理领域的热点问题,在核稀疏表示分类框架下,联合光谱信息和像元空间信息,空谱联合核稀疏表示高光谱图像分类能够取得较好的分类效果,但较高的计算复杂度及高光谱图像较大的数据量限制了其在实时性要求较高情况下的应用。基于GPU/CUDA架构,提出了一种空谱联合核稀疏表示高光谱分类的并行优化方法,设计访存优化策略对主机和设备端数据交互进行优化;充分利用GPU并行计算能力,加速分类过程中核矩阵的计算;采用依据GPU并行特性实现的矩阵运算,优化基于交替方向乘子法的分类模型求解过程。利用实际高光谱图像数据进行的实验,验证了该方法的有效性和高效性。
基于3D-IC技术的3D SRAM,由于硅通孔TSV制造工艺尚未成熟,使得TSV容易出现开路故障。而现有的TSV测试方式均需要通过特定的电路来实现,增加了额外的面积开销。通过对2D Memory BIST的研究,针对3D SRAM中的TSV全开路故障进行建模,根据TSV之间的耦合效应进行广泛的模拟研究,分析并验证在读写操作下由于TSV的开路故障对SRAM存储单元里所存值的影响,将TSV开路故障所引起的物理故障映射为SRAM的功能故障。该故障模型可以在不增加额外测试电路的情况下,为有效测试和解决这种TSV开路故障提供基础。
基于硅通孔TSV的3D-IC在电源分配网络PDN中引入了新的结构——TSV,另外,3D堆叠使得硅衬底效应成为不可忽略的因素,因此为3D-IC建立PDN模型必须要考虑TSV以及硅衬底效应。为基于TSV的3D-IC建立了一个考虑硅衬底效应的3D PDN模型,该模型由P/G TSV对模型和片上PDN模型组成。P/G TSV对模型是在已有模型基础上,引入bump和接触孔的RLGC集总模型而建立的,该模型可以更好地体现P/G TSV对的电学特性;片上PDN模型则是基于Pak J S提出的模型,通过共形映射法将硅衬底效应引入单元模块模型而建立的,该模型可以有效地反映硅衬底对PDN电学特性的影响。经实验表明,建立的3D PDN模型可以有效、快速地估算3D-IC PDN阻抗。
在大规模在线社交网络中,通过对用户影响力进行排序找出其中最具影响力的节点(集合)是一个很重要的研究方向,对于有效控制信息扩散、舆情分析和控制、精准营销等均有重要的作用。已有的节点影响力排序算法或者需要网络的全局拓扑信息来计算单个节点影响力(如基于介数中心性的算法)而时间开销过大,不适用于大规模网络;或者基于传统的网页排序算法(如PageRank)而不能很好地处理社交网络中存在着大量“末梢”节点的问题以及不同用户之间的联系强度不同的问题。在传统的PageRank算法的基础上做出了两点改进。首先,通过在PageRank算法的权值回收步骤中考虑对不同的连接赋予不同的权值,有效避免了末梢节点带来的影响。其次,在PageRank算法的投票过程中考虑邻居个体的差异性,提出了一种基于半邻域信息的节点权值分配方法,有效提高了节点排序的准确度。在一个包含大约15 000个用户的样本网络中,我们所提出的改进算法能够找出前1 000个最有影响力的节点中的40%以上的节点,而传统的PageRank算法仅能找出其中11%的节点。同时,相比于基于介数中心性的算法,所提出的改进算法以小得多的时间开销达到了相近甚至更好的排序准确度。
航天器在宇宙空间易受粒子的影响而产生错误,三模冗余技术是一种有效的容错机制。但是,现有的三模冗余加固设计一般是一款芯片定制一套加固方案,无法做到通用性。提出一种功能无关的VLSI门级网表三模冗余加固通用设计方案。通过对时序器件和组合逻辑器件进行不同的加固设计,实现三模冗余。根据对不同的工艺库的识别与理解,本方案还进行了驱动能力优化等。通过将上述方案工具化,并利用已有的众核处理器网表进行实验评估,全局时序器件加固面积增加为原始网表面积的185%,局部时序器件加固面积增加为原网表的1%~80%,加固方案可按设计需求配置。实验数据表明,加固后的网表中关键路径的平均时延增加为22.15%~22.86%,在设计需求配置下,性能可满足用户要求。
提出了一种适用于无源射频识别RFID电子标签中多次可编程MTP非易失性存储器NVM的新型电流灵敏放大器结构。该电路在不增加面积的情况下具有低功耗、高速度、高可靠性和高灵敏度的优越性能。基于GSMC 0.13μmCMOS工艺下的仿真结果表明,新型灵敏放大器在-40℃~80℃的环境下具有很高的读取速度,且能够工作在低电压(0.8 V)下。在1.2 V工作电压、27℃室温下电路的读出延时是10.5 ns,平均功耗为6.1 μW@25MHz,分辨率可达到33 nA。
在高速数字系统中,信号完整性问题越来越突出,信号速率和设计密度的不断提高使得串扰上升为主要因素之一。先研究了基于矩形谐振腔的串扰抑制方法;然后与三倍线宽方法(3W方法)和有过孔接地的防护线方法的对比分析表明,矩形谐振腔方法对微带线间近端串扰的抑制能力不理想,但对远端串扰的抑制非常有效,在频域仿真中远端串扰幅度可提高12 dB和8 dB,在时域仿真中远端串扰峰值分别为前两种方法的18.2%和23.1%;最后进一步研究了矩形谐振腔的结构参数(间距、长度和宽度)对远端串扰的影响,发现这三个参数存在一组最优值,能最大程度地减小远端串扰。
为了增强对喷射冷板散热性能影响因素的了解,通过实验研究了喷射距离对喷射冷板散热性能与阻力值的影响,并对喷射冷板散热性能的均匀性进行了分析。实验结果表明,在流量相同的情况下,现有结构喷射冷板的总热阻随喷射距离的增大先减小后增大,在喷射距离为1.5 mm时存在一个最小值;喷射冷板的阻力值随喷射距离的增大而降低,但喷射距离对喷射冷板的阻力影响较小;喷射冷板在水流方向的散热性能存在一定不均匀性,喷射冷板进水侧散热能力要略高于出水侧。
数字相机分辨率的提升对视觉测量中精度的提高有很大的促进作用,但是高分辨率图像同时也会带来更大的数据量和计算量的问题。在CPU上应用传统的串行特征点中心定位算法耗时较大,无法满足动态测量的要求。针对此提出了CUDA架构下的并行像面特征点中心快速定位算法。经过分析发现,当大于10 000个点时串行特征点中心定位算法在图像预处理、区域约束判断和点中心计算消耗的时间在90%以上,因此主要对这三个最耗时的部分展开重点研究,分析每部分的并行性,然后实现基于CUDA的特征点中心定位并行算法。实验结果表明,在点中心定位精度没有损失的前提下,提取35 000个点坐标时在CUDA上比传统的串行实现的处理速度提高了11.5倍,并且随着特征点数量的增加加速比还有显著的提高。
Chipkill是动态随机存储器系统中先进的容错手段,ReedSolomon(RS)码是实现Chipkill技术的良好编码。以18片DDR3×8存储器芯片为研究对象,首先提出了一种快速构造RS码生成矩阵并对其优化的算法,获得了仅有1 728个“1”的生成矩阵;然后设计了一种纠单符号错RS码高效译码电路,实现了用纯组合逻辑完成检错、纠错操作。将所提出的RS码与传统的SEC/DED汉明码进行对比。开销方面,译码电路面积小19%~27%,延迟仅高出6%~27%。检错纠错能力方面,减少39.76%的可检不可纠错误,并且在实验中未出现不可检错误。
提出一种基于PowerPC的安全SoC架构,通过硬件隔离的方法防御软件攻击。将软硬件资源隔离成安全和非安全两种,由硬件控制资源访问请求,可以为上层软件提供更好的安全保障。基于这种思想,对基于PowerPC的SoC架构进行了安全扩展,为上层软件提供安全和非安全两种运行环境。任何数据访问请求都会根据运行环境以及所访问的资源的安全状态判定访问是否被允许。另外,针对这种安全架构,采用基于Qemu和SystemC的高层建模方法进行建模,验证了该架构能够有效保护数据安全。
随着高性能互连网络规模的增大,如何通过互连网络拓扑结构的设计来提升系统的性能和降低物理开销成为了系统设计的关键之一。传统的拓扑结构(可分为直接网络和间接网络)在网络规模增加时,不能很好地折衷网络性能和物理开销的关系。2012年Roberto P等人提出一种新型混合的拓扑结构,结合了直接网络和间接网络的特点,有效考虑了物理开销和网络性能的折衷。在此基础上,将新型混合拓扑每一维上的唯一的一个间接网络优化为多个间接网络,经过理论分析和实验模拟新型混合拓扑结构优化后的混合拓扑结构以及较常用的传统拓扑结构,优化后的混合拓扑结构能够在提升网络性能的同时降低物理开销。
气象归档与查询系统(MARS)是欧洲中期天气预报中心(ECMWF)开发的用于多种类海量气象数据管理的框架,其核心是利用多维数据模型和数据立方体来组织和管理气象数据。重点研究了MARS系统的主要架构及其超立方体结构的数据索引方法,在此基础上提出了一种大数据背景下数据立方体的元数据查询优化和并行计算方法。实验表明,该方法能够有效缩短大数据量查询及归档情况下的系统响应时间。
现代3D图形处理器已从固定渲染管线发展成可编程渲染管线,且其并行度越来越高,研究并设计高性能的3D图形处理器对3D图形处理具有重要意义。着色器是实现3D图形处理器的核心,因此开发性能高、面积小、功耗低又易于扩展的着色器对3D图形处理器的开发具有重要作用。提出的统一架构图形处理器基于单指令多线程和单指令多数据,单指令多线程可以提高图形处理的并行度,从而提高图形处理性能;单指令多数据可以降低设计复杂度,从而实现面积小、功耗低又易于扩展的着色器。实验结果表明,提出的统一架构图形处理器在面积较小、功耗较低的情况下实现了较高的性能,且设计可扩展性较好。
提出一种应用于RFID芯片的低功耗、可校准基准源电路。设计采用了全MOS管以及电阻来实现,大部分管子都工作在亚阈值状态,同时可以产生基准电压和基准电流。该基准源采用了GSMC 0.13 μm 1P5M工艺来实现,其最大工作电流不超过350 nA,供电电压为1.2 V,并且在0.9 V~2.5 V电压下均可工作。在-45℃~65℃的工作温度下,电压基准源的温度系数为30.3 ppm/℃,电流基准源的温度系数为20.7 ppm/℃。