J4 ›› 2015, Vol. 37 ›› Issue (01): 1-6.
• 论文 • 下一篇
林彦宇,陈虎,苗军,韩佳龙媚,赖路双
LIN Yanyu,CHEN Hu,MIAO Jun,HAN Jialongmei,LAI Lushuang
摘要:
大规模集群上的并行计算软件需要具备处理部分节点、网络等失效的容错能力,也需要具有易于管理、维护、移植和可扩展的服务能力。针对星形计算模型,研究和开发了一套并行计算框架。利用调度节点内部的可变粒度分解器、相关队列等方法,实现了全系统容错,且具有较好的易用性、可移植性和可扩展性。系统目前可以实现300 TFlops计算能力下连续运行超过150 h,而且还具有进一步的可扩展能力。