计算机工程与科学

2020年第1期目录

2020, 42(01): 0-0. doi:

摘要 ( 105 )

PDF (297KB) ( 258 ) 　　

使用GTC-P应用评估曙光E级原型机的性能

王一超1,胡航1,William Tang2,王蓓2,林新华1

2020, 42(01): 1-7. doi:

摘要 ( 710 )

PDF (1011KB) ( 512 ) 　　

评审附件

曙光E级原型机是我国“十三五”计划中3台原型系统之一，该系统采用异构计算架构，CPU和加速器选用AMD授权的国产海光处理器架构。除了采用基准测试程序对芯片进行测试外，为探究真实应用在该原型机上的性能，移植了激光等离子体应用GTC-P，对比了GTC-P在海光CPU和DCU与Intel 6148 CPU和NVIDIA V100 GPU上的性能，并在原型机的多结点上进行了扩展性分析。性能评估工作反映了高性能计算应用在曙光E级原型机上的实际运行性能。

混部数据中心负载特征及其任务调度优化分析

王济伟1，葛浙奉1，蒋从锋1，张纪林1，俞俊1，林江彬2，闫龙川3，任祖杰4，万健5

2020, 42(01): 8-17. doi:

摘要 ( 240 )

PDF (891KB) ( 289 ) 　　

评审附件

随着现代互联网数据中心的规模越来越大，数据中心面临着能耗、可靠性、可管理性与可扩展性等方面的挑战。同时，数据中心承载的服务多样，既有在线Web服务，也有离线批处理任务。在线任务要求较低的延迟，而离线任务要求较高的吞吐量。为了提高服务器利用率，降低数据中心能耗，当前数据中心往往将在线任务和离线任务混合部署到同一个计算集群中。在混部场景下，如何同时满足在线和离线任务的不同要求，是目前面临的关键挑战。分析了阿里巴巴于2018年发布的含有4 034台服务器的混部计算集群在8天内的日志数据(cluster-trace-v2018)，从静态配置信息、动态混部运行状态、离线批处理作业DAG依赖结构等出发，揭示其负载特征，包括任务倾斜与容器部署的相关关系等，根据任务依赖关系与关键路径，提出了相应的任务调度优化策略。

一种基于分布式平台的规则处理架构

陈孟东，原昊，谢向辉，吴东

2020, 42(01): 18-24. doi:

摘要 ( 123 )

PDF (777KB) ( 212 ) 　　

评审附件

采用字符串变换规则对字典进行变形变换是安全字符串恢复中的一种有效方法，然而，规则的处理过程复杂，现有的方式都是基于软件实现，针对处理性能、功耗等方面的现实需求，提出了一种基于分布式平台的规则处理架构，首次使用FPGA硬件来加速规则的处理过程，并通过将复杂的规则组合进行拆分，分布到并行结点上进一步加速规则的处理过程。在蚁群系统上的实验结果表明，采用该种架构的规则处理系统满足实际需求，性能和能效相比CPU和GPU都有显著提高，表明了该分布式规则处理架构的有效性。

基于网格耦合的数据流异常检测

杨杰，张东月，周丽华，黄皓，丁海燕

2020, 42(01): 25-35. doi:

摘要 ( 146 )

PDF (943KB) ( 248 ) 　　

评审附件

基于网格的数据分析方法以网格为单位处理数据，避免了数据对象点对点的计算，极大提高了数据分析的效率。但是，传统基于网格的方法在数据分析过程中独立处理网格，忽略了网格之间的耦合关系，影响了分析的精确度。在应用网格检测数据流异常的过程中不再独立处理网格，而是考虑了网格之间的耦合关系，提出了一种基于网格耦合的数据流异常检测算法GCStream-OD。该算法通过网格耦合精确地表达了数据流对象之间的相关性，并通过剪枝策略提高算法的效率。在5个真实数据集上的实验结果表明，GCStream-OD算法具有较高的异常检测质量和效率。

商品搭配大数据推荐方法研究综述

陈鑫1，王斌1，曾范清2

2020, 42(01): 36-45. doi:

摘要 ( 239 )

PDF (562KB) ( 367 ) 　　

评审附件

随着电子商务的不断发展，推荐系统面临着数据来源多样、结构复杂、推荐多样性差、冷启动等问题。商品搭配大数据推荐方法不仅可以有效解决以上问题，还具有给予消费者搭配建议并帮助商家促进销售的重要意义。首先，通过对国内外相关文献进行梳理，阐述了搭配推荐方法的基本概念和形式，分析其与传统推荐方法的区别以及优势。然后，探讨了搭配推荐方法的分类，包括基于商品内容的搭配推荐、基于协同过滤的搭配推荐和混合搭配推荐。最后，在这些研究和分析的基础上，指出了未来的研究热点将聚焦于多个商品的搭配推荐、基于多源异构数据融合的搭配推荐和基于知识图谱的搭配推荐。特别是将知识图谱应用于搭配推荐领域，将是未来非常有前景的研究工作。

抗窃听攻击的传感器网络空间范围聚集查询处理算法

胡震海，王立松

2020, 42(01): 46-54. doi:

摘要 ( 104 )

PDF (1102KB) ( 251 ) 　　

现有传感器网络聚集查询隐私保护方法采用加解密的形式保护节点感知数据，且需要网络中的所有节点参与查询处理。过多加解密操作会大量消耗节点能量，且用户可能只对其中部分区域的聚集结果感兴趣。针对这些问题，提出一种抗窃听攻击的传感器网络空间范围聚集查询处理算法PCPDA。该算法沿着既定路线，一边查询一边聚集，使得算法不依赖于预先构造好的拓扑结构，适用于网络拓扑结构动态变化的传感器网络，节省了维护拓扑结构的开销。该算法在未采用任何加密措施情况下保证了节点感知数据的隐私性。理论分析和仿真结果表明，PCPDA在能量损耗和隐私保护方面都优于现有算法。

基于信息传播影响因素的边重要性度量方法

徐曼1,2,3，鲁富荣1,2,3，马国帅1,2,3，钱宇华1,2,3

2020, 42(01): 55-63. doi:

摘要 ( 235 )

PDF (1189KB) ( 321 ) 　　

在信息传播中，边的重要性度量是一个非常重要的研究问题。边是信息传播的载体，不同位置的边具有不同的信息负载和传播能力。移除一些对传播有重要影响的边对遏制谣言的传播和公共信息的传播最大化等有重要意义。信息的传播易受传播者、受传者、传播渠道和传播环境等影响。基于这些观察，通过综合考虑影响信息传播的多种因素，提出一种基于信息传播影响因素的边重要性度量方法ISM。在9个真实网络数据集上，ISM与4个经典的边重要性方法的Jaccard系数、桥度指数、介数中心性和可达性指数进行了比较。实验结果表明，该方法在网络连通性和扩散动态过程中，对于重要边的识别均优于其他常用方法。

基于注意力机制的混合神经网络关系分类方法

庄传志1,2，靳小龙1,2，李忠1,2，孙智1,2

2020, 42(01): 64-70. doi:

摘要 ( 146 )

PDF (518KB) ( 236 ) 　　

关系分类是自然语言处理领域的一项重要语义处理任务。传统的关系分类方法通过人工设计各类特征以及各类核函数来对句子内部2个实体之间的关系进行判断。近年来，关系分类方法的主要工作集中于通过各类神经网络获取句子的语义特征表示来进行分类，以减少手动构造各类特征。在句子中，不同关键词对关系分类任务的贡献程度是不同的，然而重要的词义有可能出现在句子中的任意位置。为此，提出了一种基于注意力的混合神经网络关系分类模型来捕获重要的语义信息，用来进行关系分类，该方法是一种端到端的方法。实验结果表明了该方法的有效性。

差分隐私的查询一致性约束研究

贾俊杰，陈慧，马慧芳，牟玉祥

2020, 42(01): 71-79. doi:

摘要 ( 139 )

PDF (585KB) ( 240 ) 　　

针对差分隐私直方图发布中区间查询的不一致问题，研究已有需迭代调整的局部最优线性无偏估计算法LBLUE，提出一种不需迭代且满足一致性约束查询的CA算法。通过对1棵添加Laplace噪声的满k-叉区间树进行一致性调整：先利用TDICE算法进行自顶向下的不一致估计，再利用BUCE算法进行自底向上的一致性估计，得到满足一致性约束查询的差分隐私满k-叉区间树，遍历后发布满足一致性约束查询的直方图数据。经过证明和实验分析，一致性调整后的查询区间满足一致性约束查询，且精确度优于Boost-2算法和LBLUE算法的，同时算法的时间效率高于LBLUE算法的。

基于新混沌与矩阵卷积运算的彩色图像加密算法

魏连锁，胡现成，陈齐齐，韩建

2020, 42(01): 80-88. doi:

摘要 ( 146 )

PDF (1452KB) ( 326 ) 　　

针对彩色图像加密过程中出现的强相关性和高冗余问题，提出基于云模型的Fibonacci混沌系统与矩阵卷积运算的彩色图像加密算法。首先对彩色图像的R、G、B分量拼接图像像素点坐标变换置乱；然后将混沌序列值作为卷积核的输入值与像素值进行矩阵卷积运算，实现像素值置换；再与云模型Fibonacci混沌序列及前相邻像素值进行正反双向2次异或操作生成加密图像。实验分析表明，加密后的图像直方图更加平滑，像素分布均匀，图像相邻像素相关性低，加密图像RGB分量平均水平、垂直和对角相关系数分别为-0.0010,0.0016和0.0031，能够抵抗差分攻击、明文攻击、噪声攻击和剪切攻击等攻击实验，提出的新加密算法具有加密安全性高、抗干扰性高、鲁棒性强等特点。

图数据压缩技术综述

李凤英，杨恩乙，董荣胜

2020, 42(01): 89-97. doi:

摘要 ( 277 )

PDF (990KB) ( 500 ) 　　

应用合适的压缩技术对包含上亿个节点和边的图数据进行紧凑准确的表示和存储是对大规模图数据进行分析和操作的前提。紧凑的图数据表示不仅可以降低图数据的存储空间，而且还可以支持在图数据上的高效操作。从图数据的存储角度出发对图数据管理中关于图数据压缩技术的研究进展进行综述，将重点介绍以下3种压缩技术：基于邻接矩阵的图数据压缩技术、基于邻接表的图数据压缩技术和基于形式化方法的图数据压缩技术，以及相关的代表性算法、适用范围和优缺点。最后对图数据压缩技术的现状和面临的问题进行了总结，并给出了未来图数据压缩技术的发展趋势。

基于注意力机制的3D车辆检测算法

万思宇

2020, 42(01): 98-102. doi:

摘要 ( 213 )

PDF (540KB) ( 254 ) 　　

3D车辆检测是自动驾驶场景中的一个关键问题，涉及到3D目标检测与目标分类。目前的3D检测与分类网络对于所有输入的点云数据一视同仁，但在实际检测过程中，点云中不同点对于检测的重要程度可能并不相同。为了得到更好的检测结果，通过引入注意力机制来得到不同点的特征的权重，从而在回归时让部分点的特征得到更多的重视。实验表明，该算法在保证实时效率的前提下，与现有算法相比，具有更高的准确度。

基于YOLOv3算法的训练集优化和检测方法的研究

高星1，刘剑飞1，郝禄国2，董琪琪1

2020, 42(01): 103-109. doi:

摘要 ( 268 )

PDF (795KB) ( 336 ) 　　

YOLOv3是一种单步目标检测算法，不需要产生区域候选网络(RPN)来提取目标信息，相对于双步目标检测算法具有更快的检测速度。但是，现有算法在小目标检测上存在精度不高和漏检现象的问题，为此提出了一种基于YOLOv3算法的训练集优化和图层处理的检测方法。首先在标准数据集VOC2007+2012和自建的举手行为数据集上采用K-means算法做聚类分析，以得到适应数据集训练尺寸的anchor大小；然后通过调整训练参数及选择合理的标签标注方式进行训练；最后对输入图像进行图层处理并进行目标检测。实验结果表明，聚类分析后VOC2007验证集的平均准确度(mAP)提高了14%，并有效解决了原算法在检测过程中较高卷积层上感受野小的问题，从而使YOLOv3算法在小目标物体的检测上精度提高，漏检率也相对下降。

基于卷积神经网络的虫情图像分割和计数方法

王卫民1,符首夫1,顾榕蓉1,王东升1,何林容2,关文斌3

2020, 42(01): 110-116. doi:

摘要 ( 216 )

PDF (979KB) ( 355 ) 　　

为提高虫情图像的分割和计数的准确率，提出了一种基于卷积神经网络的虫情图像分割和计数方法。该方法基于U-Net模型构造了一种昆虫图像分割的模型Insect-Net，将完整的虫情图像和切割后的虫情图像分别输入模型后，提取两者特征进行融合。将融合后的特征输入1个1×1的卷积层得到最终分割结果，再将得到的结果二值化后，采用轮廓检测算法将昆虫目标与背景分离并计数。实验结果表明，该方法在虫情图像中取得了较高的分割正确率和计数正确率，分别为94.4%和89.2%。用深度学习和卷积神经网络的方法有效提高了虫情图像的计数精度，并且为昆虫识别分类提供了大量的无背景数据集。

基于深度学习特征点法的单目视觉里程计

熊炜1,2，金靖熠1，王娟1，刘敏1，曾春艳1

2020, 42(01): 117-124. doi:

摘要 ( 189 )

PDF (863KB) ( 293 ) 　　

针对特征点法的视觉里程计VO中光度、视点变化对特征点提取稳定性降低的不利影响，提出一种基于深度学习特征点法的单目VO方法。采用自监督深度学习网络训练得到DSP特征点检测器。首先使用亮度非线性逐点调整方法对训练图像进行光度调整；然后使用非极大值抑制方法剔除冗余DSP特征点，改进最邻近方法得到双向最邻近方法，解决特征点匹配问题；最后建立最小化重投影误差方程求解优化位姿及空间点参数。在Hpatches、Visual Odometry数据集上进行验证，实验结果表明：DSP特征点检测器增强了特征匹配对光度、视点变化的鲁棒性；无后端优化的条件下，本方法定位均方根误差比ORB方法明显降低，且保证了系统实时性，为特征点法的VO提供新的解决思路。

基于ELM的遥感影像城市道路提取

蔡衡1,2,3，楚恒1,2,4，单德明1,2,3

2020, 42(01): 125-130. doi:

摘要 ( 138 )

PDF (657KB) ( 264 ) 　　

针对高分辨率遥感影像中复杂场景道路提取不理想问题，利用极限学习机ELM的快速学习能力，提出了一种基于ELM的城市道路提取方法。首先，利用改进的布谷鸟搜索CS算法自适应地选择ELM的隐含层节点数，以提高模型的稳定性；其次，引入数据样本蕴含的判别信息，弥补ELM学习不够充分问题，进而提高ELM分类性能；最后，结合数学形态学处理，对提取道路进行优化，获得最终的道路提取效果。遥感影像道路提取实验结果表明，所提方法不仅增强了网络的稳定性，同时还提高了道路提取的精确度，能较好地提取出道路信息。

基于词干单元的维-哈语文本关键词提取研究

沙尔旦尔·帕尔哈提，米吉提·阿不里米提，艾斯卡尔·艾木都拉

2020, 42(01): 131-137. doi:

摘要 ( 133 )

PDF (556KB) ( 231 ) 　　

提出了基于词干单元的维吾尔语和哈萨克语（以下称维-哈语）文本关键词提取方法。维-哈语属于资源缺乏的派生类语言，词素结构分析和词干提取方法能有效地减少派生类语言的粒度容量，并且可以提高其覆盖率。从网上下载维-哈语文本，并切分成词素序列，用word2vec训练词干向量以分布式表示文本内容，再用TF-IDF算法对其词干向量进行加权处理。根据训练集关键词干向量和测试集词干向量相似度来提取关键词。实验结果表明，基于词素切分及词干向量表示的方法是在维-哈语等派生类语言关键词提取任务中的重要步骤，通过这个步骤，能够提高关键词提取的准确率。

循环球电动助力转向系统控制及补偿策略

魏娟，李子卓，田海波

2020, 42(01): 138-143. doi:

摘要 ( 190 )

PDF (649KB) ( 435 ) 　　

考虑循环球式转向系统内多因素的影响，设计循环球式电动助力系统的控制及补偿策略，建立循环球式电动助力转向系统模型，设计电流助力曲线，采用模糊PID控制方法，实现电机的实时控制；为了获得更好的助力力矩，补偿系统内损失，基于LuGre摩擦模型，通过观测到的系统参数，建立摩擦状态观测器，得到摩擦补偿叠加电流。使用Matlab/Simulink与CarSim的联合仿真验证控制系统；通过对增加摩擦补偿策略前后的对比分析，可知所设计的电动助力转向电流控制系统能综合车辆行驶时的摩擦、车速和转向盘转角等信息，由助力执行电机产生适当的助力，更准确地实现驾驶员的驾驶意图，使得回正过程更加平稳。

主题模型在短文本上的应用研究

韩肖赟,侯再恩,孙绵

2020, 42(01): 144-152. doi:

摘要 ( 148 )

PDF (1455KB) ( 304 ) 　　

针对短文本上以LDA为主的传统主题模型易受特征稀疏、噪声以及冗余影响的问题，首先梳理了文本特征表示法的变化以及短文本上主题模型的发展现状，并系统地总结了LDA模型和狄利克雷多项混合模型(DMM)各自的生成过程和相应的吉布斯采样参数推导。关于主题模型最优主题数，选取常见的4种优化指标进行了详细的对比说明。最后分析了近2年主题模型的扩展研究和其在网络舆情上的简单应用，并以此指明了未来主题模型的研究方向和侧重点。

融合LSTM和LDA差异的新闻文本关键词抽取方法

宁珊, 严馨, 周枫, 王红斌, 张金鹏

2020, 42(01): 153-160. doi:

摘要 ( 165 )

PDF (611KB) ( 253 ) 　　

针对语义信息对TextRank的影响，同时考虑新闻标题信息高度浓缩以及关键词的覆盖性与差异性的特点，提出一种新的融合LSTM和LDA差异的关键词抽取方法。首先对新闻文本进行预处理，得到候选关键词；其次通过LDA主题模型得到候选关键词的主题差异影响度；然后结合LSTM模型和word2vec模型计算候选关键词与标题的语义相关性影响度；最后将候选关键词节点按照主题差异影响度和语义相关性影响度进行非均匀转移，得到最终的候选关键词排序，抽取关键词。该方法融合了关键词的语义重要性、覆盖性以及差异性的不同属性。在搜狗全网新闻语料上的实验结果表明，该方法的抽取结果相比于传统方法在准确率和召回率上都有明显提升。

基于CNN-SVM的护理不良事件文本分类研究

葛晓伟, 李凯霞, 程铭

2020, 42(01): 161-166. doi:

摘要 ( 140 )

PDF (535KB) ( 233 ) 　　

针对当前医院护理不良事件上报的内容多为非结构化文本数据，缺乏合理明确的分类，人工分析难度大、人为因素多、存在漏报瞒报、人为降低事件级别等问题，提出一种基于字符卷积神经网络CNN与支持向量机SVM的中文护理不良事件文本分类模型。该模型通过构建字符级文本词汇表对文本进行向量化，利用CNN对文本进行抽象的特征提取，并用SVM分类器实现中文文本分类。与传统基于TF-IDF的SVM、随机森林等多组分类模型进行对比实验，来验证该模型在中文护理不良事件文本分类中的分类效果。

基于核稀疏表示的属性选择算法

吕治政, 李扬定, 雷聪

2020, 42(01): 166-177. doi:

摘要 ( 107 )

PDF (1080KB) ( 202 ) 　　

为解决高维数据在分类时造成的“维数灾难”问题，提出一种新的将核函数与稀疏学习相结合的属性选择算法。具体地，首先将每一维属性利用核函数映射到核空间，在此高维核空间上执行线性属性选择，从而实现低维空间上的非线性属性选择；其次，对映射到核空间上的属性进行稀疏重构，得到原始数据集的一种稀疏表达方式；接着利用L1范数构建属性评分选择机制，选出最优属性子集；最后，将属性选择后的数据用于分类实验。在公开数据集上的实验结果表明，该算法能够较好地实现属性选择，与对比算法相比分类准确率提高了约3%。

基于差分变异算子的烟花算法

郭京蕾, 赵孝豪, 郭亚军

2020, 42(01): 178-184. doi:

摘要 ( 130 )

PDF (605KB) ( 208 ) 　　

烟花算法是受到烟花爆炸的启发而提出的群智能算法。在分析高斯变异算子不足的基础上，提出了一种基于差分变异算子的烟花算法（DEFWA），并对最优烟花采用动态火花爆炸策略。在测试函数集上的实验表明，DEFWA算法在求解精度和收敛速度上优于多种改进型烟花算法。

出租车目的地预测的深度学习方法

崔淑敏, 张磊, 李允, 邵长兴, 朱少杰,

2020, 42(01): 185-190. doi:

摘要 ( 190 )

PDF (567KB) ( 246 ) 　　

null

当期目录

作者中心

审稿中心

在线期刊