计算机工程与科学

2021年第5期目录

2021, 43(05): 0-0. doi:

摘要 ( 172 )

PDF (278KB) ( 216 ) 　　

云际存储系统性能优化研究现状与展望

朱良杰, 沈佳杰, 周扬帆, 王新,

2021, 43(05): 761-772. doi:

摘要 ( 341 )

PDF (959KB) ( 346 ) 　　

云际存储系统提供了一个云存储资源管理平台，该平台被广泛地部署到了不同的在线应用场景中。通过将用户数据加密分发到多个云，云际存储系统可以保证存储数据的安全性和可靠性。为了高效地管理云际存储系统的各种资源，云际存储系统设计了不同数据分发方案来满足应用需求。从存储性能优化的角度出发，综述了当前云际存储的主要应用场景、系统功能及对应的实现方案。首先，介绍了云际存储系统的背景及当前主要的数据分发方案。其次，比较了当前主流云际存储系统网络传输及资源管理方案。其中，包括分析云际存储系统数据读写和修复操作中主要网络传输方案及当前云际存储系统对于用户端设备及云端资源策略。最后，总结了当前云际存储的主要应用场景和相应系统实现方案。在此基础上，分析了当前云际存储系统中亟待解决的问题及其带来的挑战，并给出了可能的系统解决方案。

基于OPS的计算流体力学软件多平台自动并行

王巍, 车永刚, 徐传福, 王正华

2021, 43(05): 773-781. doi:

摘要 ( 231 )

PDF (1038KB) ( 267 ) 　　

当前高性能计算机体系结构呈现多样性特征，给并行应用软件开发带来巨大挑战。采用领域特定语言OPS对高阶精度计算流体力学软件HNSC进行面向多平台的并行化，使用OPS API实现了代码的重构，基于OPS前后端自动生成了纯MPI、OpenMP、MPI+OpenMP和MPI+CUDA版本的可执行程序。在一个配有2块Intel Xeon CPU E5-2660 V3 CPU和1块NVIDIA Tesla K80 GPU的服务器上的性能测试表明，基于OPS自动生成的并行代码性能与手工并行代码的性能可比甚至更优，并且OPS自动生成的GPU并行代码相对于其CPU并行代码有明显的性能加速。测试结果说明，使用OPS等领域特定语言进行面向多平台的计算流体力学并行软件开发是一种可行且高效的途径。

天河三号原型机分布式并行深度神经网络性能评测及调优

魏嘉, 张兴军, 纪泽宇, 李靖波, 岳莹莹

2021, 43(05): 782-791. doi:

摘要 ( 371 )

PDF (1031KB) ( 457 ) 　　

深度神经网络DNN模型是人工神经网络ANN模型的重要分支,是深度学习的基础。近年来，由于计算机算力的提升和高性能计算技术的发展，使得通过增加DNN网络深度和模型复杂度来提高其特征提取和数据拟合的能力成为可能，从而使DNN在自然语言处理、自动驾驶和人脸识别等问题上显现了优势。然而海量的数据和复杂的模型大大提高了深度神经网络的训练开销，因此加速其训练过程成为了一项关键任务，其技术范围涵盖从底层电路设计到分布式算法设计等多个方面。国产天河三号原型机峰值速度的设计目标为百亿亿级，巨大的计算能力为DNN训练提供了潜在的契机。针对天河三号原型机ARM架构特点，采用PyTorch框架与MPI技术，针对单个MT-2000+计算节点、单个FT-2000+计算节点，以及通过拓展的多节点集群设计CNN训练策略，并对上述处理器在神经网络分布式训练的性能做出了评测和优化，为进一步提升和改进天河三号原型机在神经网络大规模分布式训练方面的表现提供了实验数据和理论依据。

基于OMNet++的大规模InfiniBand互连网络模拟系统

汪鑫, 林放, 刘轶, 钱德沛

2021, 43(05): 792-798. doi:

摘要 ( 333 )

PDF (1000KB) ( 291 )

PDF（mobile） (768KB) ( 36 ) 　　

随着多核处理器的发展和计算需求的不断增长，高性能计算系统规模不断增大。使用模拟器对高性能计算系统进行模拟，对系统设计及优化有着重要的作用，互连网络模拟则是其中不可或缺的一部分。设计实现了一种基于OMNet++的大规模InfiniBand互连网络模拟系统，该系统通过记录的并行程序MPI消息来驱动网络仿真过程，可以模拟互连网络在程序运行过程中的工作状态，并可与消息驱动的高性能计算机模拟系统集成。通过与真实集群中节点间通信时延做对比，验证了模拟精度，并测试了模拟性能。

面向FT-M7002的高斯滤波算法优化实现

陈云, 王梦园, 柴晓楠, 商建东,

2021, 43(05): 799-806. doi:

摘要 ( 229 )

PDF (1000KB) ( 307 ) 　　

国产自主研发的飞腾系列高性能DSP处理器在图像处理领域的应用，对面向该平台的高性能图像处理算法提出了强烈需求。高斯滤波作为图像处理的基础算法，能有效滤除图像中的高斯噪声，在图像处理领域具有广泛应用。针对飞腾高性能DSP的体系结构特点与高斯滤波算法特性，实现了面向飞腾高性能DSP的高斯滤波算法优化。通过手工向量化、控制流消除和循环展开等优化手段充分利用数据级与指令级并行性，从而减少数据访存次数，提高指令执行效率。针对FT-MT2内核中的DMA硬件及向量存储器结构特点，进行了“乒-乓”缓存、DMA数组转置等优化，以减少数据传输时间，提高数据局部性。多种滤波核大小及图像矩阵规模下的测试结果表明，相对于高斯滤波算法的串行实现，该并行优化实现获得了1.3~1.41倍的加速比。在开启Cache的情况下，相较于dsplib库中高斯滤波算法在TMS320C6678平台上的运行性能，获得了1.15~1.71倍的加速效果。

一种非乱序存储的数据交织加固技术

王丹宁, 刘胜, 李振涛

2021, 43(05): 807-813. doi:

摘要 ( 139 )

PDF (718KB) ( 193 ) 　　

存储加固引入交织可以提高存储可靠性。交织可以把原始数据序列打乱，减弱交织前后数据序列的相关性，从而降低数据多连续位错误对存储的影响，有利于提高系统纠错能力。由于将原始数据打乱，交织也带来了存储数据信息乱序的问题，从而影响硬件调试时的数据访问，降低了调试效率。针对交织带来的存储信息乱序这一问题，提出了一种非乱序存储的数据交织加固技术，通过改进原来的交织编解码问题，将交织融入编解码模块来解决存储信息乱序问题。最后的验证结果表明，该技术不但能充分利用交织的优势，纠正连续多位错误，还能保证存储数据顺序与原始数据顺序相同。

一种高性能FPGA辐射发射抑制方法研究

王霞, 郑龙飞, 王蒙军, 张红丽, 吴建飞,

2021, 43(05): 814-819. doi:

摘要 ( 222 )

PDF (834KB) ( 264 )

PDF（mobile） (834KB) ( 69 ) 　　

随着半导体技术的不断发展，集成电路的电路速度、集成密度和I/O端口数量已大大增加，FPGA的小型化、高密度集成会引发电磁兼容性的问题，电磁屏蔽是抑制电磁辐射最有效的方法，选择高效的电磁屏蔽材料可以取得良好的屏蔽效果。而目前电磁屏蔽材料在FPGA上的应用较少，因此选取了一款具有代表性的高性能FPGA作为研究对象，通过近场扫描测试来研究不同状态下FPGA的电磁辐射发射问题；针对芯片的特点，选取了复合金属屏蔽罩和吸波导电海绵作为电磁屏蔽材料，对FPGA的辐射发射进行抑制。进一步的实验结果表明，由金属材料复合而成的屏蔽罩具有更好的屏蔽效能，达到了10 dBm,相比之下，吸波导电海绵的压缩性和结构稳定性更有助于FPGA在多场景下应用。

基于申威众核处理器的圣维南求解程序的并行与优化

丁哲昭, 储根深, 胡长军, 李扬

2021, 43(05): 820-829. doi:

摘要 ( 279 )

PDF (1406KB) ( 293 ) 　　

圣维南方程组可用于描述明渠非恒定流的汇流过程，在大规模水文模拟软件中，求该方程组的数值解是制约程序运行时间的最大瓶颈。
通过分析串行程序结构及其计算热点，挖掘计算密集型程序中单步模拟循环计算段和指令排列等的可并行性，针对“神威·太湖之光”超级计算机的异构众核架构设计主从核异步并行方案，基于MPI和athread库对求解程序进行移植、并行和加速，采用SIMD技术将从核计算段向量化，使用双缓冲等策略对通信瓶颈进行优化。测试表明，计算热点函数的性能较优化前平均可提高3倍以上，在百万控制单元规模内，众核级优化后的并行程序加速比可保持近线性增长，在神威多结点上具有很好的可扩展性。

SDN多控制器部署及流量均衡研究

陈俊彦, 李玥, 梁楚欣, 雷晓春

2021, 43(05): 830-835. doi:

摘要 ( 219 )

PDF (728KB) ( 257 ) 　　

随着网络的发展，单一的控制器已经无法满足大量交换机的控制需要，需要使用多个控制器。利用改进的k-means++算法对网络拓扑图进行划分，将网络拓扑抽象为无向图，将网络中多控制器部署问题抽象为无向图的最短路径问题。以边的权重来划分图，权重由链路带宽和传输时延加权得出，比较2种方式的负载均衡度和成本得出多控制器部署策略。随后通过对网络中的多条路径采取流量均衡策略，使数据合理地分布在不同的路径上，使网络流量分配更平均，网络性能更高。实验表明，数据包在有多条路径可选择的情况下，可以合理选择传送路径，使网络中各个路径的负载更均衡。

基于多智能体Q学习的异构车载网络选择方法

聂雷, 刘博, 李鹏, 何亨,

2021, 43(05): 836-844. doi:

摘要 ( 203 )

PDF (955KB) ( 278 ) 　　

异构车载网络环境下如何选择接入网络对于车载终端用户的服务体验而言至关重要，目前基于Q学习的网络选择方法利用智能体与环境的交互来迭代学习网络选择策略，从而实现较优的网络资源分配。然而该类方法通常存在状态空间过大引起迭代效率低下和收敛速度较慢的问题，同时由于Q值表更新产生的过高估计现象容易导致网络资源利用不均衡。针对上述问题，基于多智能体Q学习提出一种适用于融合5G通信异构车载网络的选择方法MQSM。该方法采用多智能体协作学习的思想，利用双Q值表交替更新的方式来获得动作选择的总回报值，最终实现异构车载网络环境下长期有效的最优网络切换决策集合。实验结果表明，与同类型方法相比较，MQSM在系统总切换次数、平均总折扣值和网络容量利用率方面表现出更好的性能。

改进LSTM-RF算法的传感器故障诊断与数据重构研究

林涛, 张达, 王建君

2021, 43(05): 845-852. doi:

摘要 ( 353 )

PDF (1156KB) ( 329 ) 　　

针对传感器的故障诊断与故障数据重构问题，提出一种基于改进型长短期记忆网络（LSTM）和随机森林（RF）的混合算法。首先，运用改进型LSTM算法对传感器的输出序列进行预测，将预测值与实际值作差得到残差序列。然后，通过RF算法对残差序列进行分类，识别出传感器的故障状态。当传感器诊断的结果为故障工作状态时，利用改进型LSTM的预测值重构故障数据。所提的改进LSTM-RF算法在功能上既可以对传感器故障类型进行诊断，又可以对故障数据进行重构。实验结果表明，改进的LSTM-RF算法的传感器故障识别准确率在不同的数据集上均能大于97%，故障数据重构的均方根误差小于4%;相比标准的LSTM-RF算法,改进的LSTM-RF算法在收敛速度提高的同时故障数据重构的精度提高了0.4%。

基于CSI与SVM回归的室内定位方法

党小超, 汝春瑞, 郝占军,

2021, 43(05): 853-861. doi:

摘要 ( 222 )

PDF (1802KB) ( 293 ) 　　

为研究室内定位技术在复杂环境中的应用，以楼梯和实验室为实验场景，提出了一种基于信道状态信息（CSI）与SVM回归的室内定位方法。该方法通过基于密度的空间聚类方法（DBSCAN）去除信号噪声，并用主成分分析法（PCA）提取贡献最大的指纹特征，同时降低CSI指纹的维度。通过SVM回归建立CSI指纹与目标位置之间的非线性关系，从而达到根据测得的CSI指纹估计目标位置的目的。实验结果表明，在多径效应较强的楼梯复杂环境中，该定位系统可以在90%以上的概率下达到1 m的定位精度，实验室环境中可以在82%的概率下达到0.8 m的定位精度, 这表明基于CSI与SVM回归的室内定位方法具有高效性和可行性。

基于集成分类型深度神经网络的视网膜眼底血管图像分割

蒋芸, 王发林, 张海

2021, 43(05): 862-871. doi:

摘要 ( 213 )

PDF (909KB) ( 319 ) 　　

视网膜血管检测在眼底疾病的诊断和治疗中具有重要的临床价值。但是，由于眼底图像特征的复杂性和多样性,大部分的视网膜分割方法存在血管分割性能低、抗噪声干扰能力弱和对病灶敏感等问题，为此,提出了一种集成深度分类神经网络对像素点分类的方法。首先利用不同的残差网络模型来分类像素点,获得血管分割图像；然后通过集成学习的方法对各个模型的分割结果进行处理,获得最终的视网膜血管分割图像。在STARE、DRIVE和CHASE数据集上的实验仿真结果显示,分割准确率分别达到9736%,9557%,9636%,特异性分别达到9806%,9776%,9784%,F-measure分别达到8498%,8225%,7987%。比R2U_Net的F-measure分别提高了023%,0.54%,0.59%。

一种基于CNN-SE-ELM的年龄和性别识别模型

陈文兵, 李育霖, 陈允杰

2021, 43(05): 872-882. doi:

摘要 ( 256 )

PDF (843KB) ( 352 ) 　　

基于人脸图像识别年龄及性别是当前人工智能研究的热点之一。提出一种综合卷积神经网络CNN、挤压-激励网络SENet及极限学习机ELM的混合模型。模型中的卷积层用于从人脸图像中提取面部特征，SENet层用于优化卷积层提取的特征，误差最小化极限学习机（EM-ELM）用作分类器以实现面部图像的年龄及性别识别。与现有的流行模型相比，所提模型由于采用了CNN+SENet架构能够从面部图像中提取到更具代表性及最优的特征映射，而EM-ELM的极速计算使得模型更快速、更高效。在多个非限制人脸数据集上的实验结果表明，
相比近期其他基于深度学习的相关模型，所提模型具有更高的识别准确率和更快的识别速度。

基于视频和人体姿态估计的老年人摔倒监测研究

黄展原, 李兵, 李庚浩,

2021, 43(05): 883-890. doi:

摘要 ( 483 )

PDF (716KB) ( 529 ) 　　

人口老龄化所带来的养老服务问题是现代社会面临的严重问题。例如在很多国家跌倒是造成老年人因伤致死的最大原因，因此如何对老年人进行自动摔倒监测就成为养老服务亟待解决的问题。目前，在室内摔倒监测领域中，基于可穿戴设备和基于环境传感器等主流摔倒监测方法面临着设备复杂、成本较高等问题。鉴于此，将人体姿态估计引入摔倒监测领域，提出了一种基于2D视频的摔倒监测算法。首先利用OpenPose数据集提取原始数据中人体关节的位置；其次利用这些具有增强特征的数据构建静态分类模型和动态分类模型；最后，在3个公共摔倒数据集上进行模型训练和摔倒监测的测试，取得了较好的效果，可以为摔倒监测相关研究提供一定的参考。

基于改进型Retinex算法的彩色图像增强技术

骆家杭, 张旭

2021, 43(05): 891-896. doi:

摘要 ( 219 )

PDF (766KB) ( 306 ) 　　

由于单尺度Retinex算法在处理过程中会产生光照强度问题导致图像细节表达不细致，提出一种改进的基于单尺度Retinex(SSR)算法的
真彩图像增强算法。首先，使用加权最小二乘法对原始彩色图像进行细节增强，然后对原始图像进行优化。对处理后的图像层和细节图像层构造增益系数，并进行重构输出一幅新的合并图像。实验结果表明，所提算法能够有效减少图像中的噪声，并使图像细节和对比度更加突出，亮度增强。相比于其它传统的算法，改进型Retinex算法处理后的图像客观评价指标有大幅度提升，图像增强能力有大幅改善。

一种带形状参数的奇异混合拟Bézier曲线

张贵仓, 拓明秀, 苏金凤, 孟建军, 韩根亮

2021, 43(05): 897-906. doi:

摘要 ( 159 )

PDF (1673KB) ( 238 ) 　　

利用权的思想并结合奇异混合技术，对传统的拟Bézier曲线进行扩展，构造了一种带形状参数的奇异混合拟Bézier曲线。首先将奇异混合函数和三角多项式空间的拟三次Bézier基函数相结合得到奇异混合拟Bézier曲线的定义，进而根据奇异混合拟Bézier曲线的定义反推出奇异混合拟Bézier基函数；接着讨论了奇异混合拟Bézier基函数及其对应曲线的性质，并探究了奇异混合函数及参数对二者的影响；最后给出了奇异混合拟Bézier曲线曲面的设计实例。实验结果表明，与传统Bézier曲线相比，本文构造的曲线在具有传统Bézier曲线实用性质的同时还具有灵活的形状可调性，新曲线不仅能够精确表示二次曲线，并且在满足特定条件时曲线还能够达到G1及G2连续，将曲线运用张量积方法拓展到曲面还可以精确表示椭球面及球面。大量的分析以及实例表明，本文构造的曲线在几何造型设计中十分有效。

基于FCN-LSTM的工业烟尘图像分割

张俊鹏, 刘辉, 李清荣

2021, 43(05): 906-916. doi:

摘要 ( 211 )

PDF (880KB) ( 246 ) 　　

工业生产中常根据林格曼烟气黑度判断工业烟尘的污染等级，一种有效的方式是应用计算机视觉系统对工业烟尘进行监测，
其中对烟尘目标进行准确分割是该系统的关键技术。因为工业烟尘具有形状不固定、和云相似度高等特点，现有算法在复杂场景下对烟尘进行分割时容易受到干扰，分割准确度有待提高。针对这一问题，提出一种基于FCN-LSTM的工业烟尘图像分割方法，在全卷积网络对图像空间特征提取的基础上，使用长短时记忆网络提取图像序列的时间信息，通过烟尘的动态特征对运动的烟尘和背景进行区分，增强复杂场景下的抗干扰能力。实验表明，本文模型相比于全卷积网络，在复杂场景下的抗干扰能力有显著提升，能够有效克服来自云的干扰，对全卷积网络分割结果中易出现干扰点的问题也有改善，IoU指标最高有8.04%的提升。

不平衡数据多粒度集成分类算法研究

陈丽芳, 代琪, 赵佳亮

2021, 43(05): 917-925. doi:

摘要 ( 186 )

PDF (1504KB) ( 386 ) 　　

针对传统模型在解决不平衡数据分类问题时存在精度低、稳定性差、泛化能力弱等问题，提出基于序贯三支决策多粒度集成分类算法MGE-S3WD。采用二元关系实现粒层动态划分；根据代价矩阵计算阈值并构建多层次粒结构，将各粒层数据划分为正域、边界域和负域；将各粒层上的划分，按照正域与负域、正域与边界域、负域与边界域重新组合形成新的数据子集，并在各数据子集上构建基分类器，实现不平衡数据的集成分类。仿真结果表明，该算法能够有效降低数据子集的不平衡比，提升集成学习中基分类器的差异性，在G-mean和F-measure1 2个评价指标下，分类性能优于或部分优于其他集成分类算法，有效提高了分类模型的分类精度和稳定性，为不平衡数据集的集成学习提供了新的研究思路。

一种融合行为与结构特征推理的造假群组检测算法

张怡睿宸, 李云峰, 顾旭阳, 纪淑娟

2021, 43(05): 926-935. doi:

摘要 ( 150 )

PDF (704KB) ( 162 ) 　　

在线评论对用户的购物决策有重要的影响作用，这导致一些不良商家雇佣大量水军有组织、有策略地给自己刷好评，以提高销量赚取更大利润，给竞争对手刷差评来抹黑对手，以降低其销量。为了检测这种有组织的水军群组，提出一种融合行为与结构特征推理的造假群组检测算法。该算法包含2部分：第1部分用频繁项挖掘方法产生候选群组，然后使用行为指标来计算群组中每个成员的协同造假可疑度，将该可疑度看作先验概率；第2部分先为每个群组建立加权评论者-商品二部图，然后使用循环信念传播算法推理后验概率，将推理后得到的后验概率值作为该成员的最终协同造假可疑度，最后使用熵值法来判定是否为共谋群组。在真实数据集上的实验结果表明，所提算法性能优于比较算法。

广义二型模糊逻辑系统降型及其采样离散Nie-Tan算法

陈阳, 王涛

2021, 43(05): 936-943. doi:

摘要 ( 166 )

PDF (905KB) ( 264 ) 　　

广义二型模糊逻辑系统在近年来成为学术研究的热点问题，而降型是该系统中的核心模块。最近的研究证明了连续Nie-Tan(CNT)算法是计算区间二型模糊集质心的准确方法。发现了离散Nie-Tan(NT)算法中的求和运算和CNT算法中的求积分运算的内在联系，用2类算法完成基于广义二型模糊集α-平面表达理论的广义二型模糊逻辑系统质心降型。3个计算机仿真实验表明,当适当增加主变量采样点个数时，所提出的基于主变量采样的离散NT算法计算出的广义二型模糊逻辑系统质心降型集和解模糊化值结果可以精确地逼近基准的CNT算法，且采样离散NT算法的计算效率远远高于CNT算法的效率。

基于反向学习和种群引导的多目标蝗虫优化算法

邵鸿南, 梁倩, 王李森, 马云鹏, 项贤鹏

2021, 43(05): 944-950. doi:

摘要 ( 237 )

PDF (528KB) ( 327 ) 　　

为了解决多目标优化的相关问题，提出了求解多目标的蝗虫优化算法，结合单个目标的蝗虫优化算法的搜寻机制、帕累托优势以及拥挤度策略，并在算法中应用种群引导和高斯变异算子，加入了反向学习机制。将所提出的算法与经典的MOPSO、MOCS、MOGOA和MOWOA算法进行了比较，比较结果表明，所提出的改进多目标蝗虫优化算法具有良好的鲁棒性，所求得的解分布更均匀，收敛更快速，是一种有着良好应用前景的多目标进化算法。

当期目录

作者中心

审稿中心

在线期刊