计算机工程与科学

2021年第2期目录

2021, 43(02): 0-0. doi:

摘要 ( 212 )

PDF (284KB) ( 232 ) 　　

面向DRAM和NVM异构混合内存架构的排序连接算法优化

杨柳, 金培权

2021, 43(02): 191-198. doi:

摘要 ( 357 )

PDF (897KB) ( 464 ) 　　

随着计算机技术的高速发展，数据的应用规模也在不断扩大，各行各业对于数据存取速度的要求也越来越高。为了满足这种需求，内存数据库的思想被提出，然而传统的内存存储器DRAM由于密度和能耗的限制无法大规模集成和扩展。与此同时，非易失内存（NVM）以其性能高、密度高、能耗低的优势弥补了DRAM的不足。DRAM和NVM结合在一起组成的混合内存系统能够发挥出更高的性能和更强的扩展能力，同时也更加经济高效。在这种新的混合内存架构下，传统的算法面临着巨大的挑战，因为它们必须要对新的架构进行优化。故从数据库系统常用的排序连接算法出发，探索其在混合内存系统上的更优使用方式，提出了键值分离的排序连接算法，并在此基础上提出了3种不同的C-Join算法。实验结果表明，提出的方案达到了预期的目标，不仅减少了DRAM的使用，同时也提高了算法的时间性能。

一种轻量级的处理器核性能分析框架

雷国庆, 马驰远, 王永文, 郑重

2021, 43(02): 199-204. doi:

摘要 ( 311 )

PDF (753KB) ( 304 ) 　　

面向国产处理器核心性能提升的实际需求，针对处理器核 RTL 设计中可能出现的性能缺陷问题，提出了一种基于 RTL 仿真的轻量级处理器核性能分析框架。该性能分析框架基于定向和随机测试激励，通过对基准处理器核（Base Core）和新一代处理器核（New Core）的 RTL 设计进行快速模拟仿真，并对模拟结果进行对比分析，从而发现 New Core 在RTL 设计过程中可能引入的性能缺陷。基于该性能分析框架，结合实际应用场景给出了测试方法和测试结果。实践表明，该性能分析框架能够快速对New Core的RTL设计的性能预期进行验证，从而发现New Core在 RTL 设计过程中可能引入的性能缺陷，有效加速新一代处理器核的研制进程。

基于标准单元替换的功耗优化方法研究

贾勤, 马驰远, 彭书涛

2021, 43(02): 205-210. doi:

摘要 ( 251 )

PDF (912KB) ( 223 ) 　　

集成电路设计工艺的不断提升在带来更高性能的同时也造成了功耗过高的问题，如何兼顾高性能与低功耗成为当前高性能超大规模集成电路设计需要解决的关键问题，标准单元替换是一种有效的降低功耗的方法。首先比较了2种不同的标准单元替换策略，然后通过实验分析了不同策略的功耗优化效果以及对性能的影响，最后提出了合适的标准单元替换策略来优化功耗。

负载自适应的存储池数据重构策略

魏登萍, 陈浩稳, 谢徐超, 袁远, 高文强

2021, 43(02): 211-217. doi:

摘要 ( 253 )

PDF (660KB) ( 265 ) 　　

大数据时代各应用领域对计算机存储系统的性能和可靠性需求与日俱增。新型存储介质为计算机存储系统的性能提升提供了良好的机遇，基于固态盘的存储阵列（RAIS）已在各种存储系统中广泛使用。传统RAIS系统中当一块固态盘出现故障时，通过数据重构操作恢复故障盘的数据，重构时间长，且影响对上层应用提供I/O访问服务的能力。针对该问题，设计实现了基于多线程并发处理的存储池架构，该架构能够并发处理存储池中的I/O请求，提高用户I/O和数据重构I/O的访问性能。提出了一种负载自适应的I/O调度策略，能够在保证用户I/O服务质量的同时，提升数据重构效率。实验结果表明，基于存储池的多线程并发I/O处理架构能够提升数据重构性能，负载自适应的I/O调度策略能够根据用户I/O的负载情况动态调整用户I/O和数据重构I/O的调度比例，在保证用户I/O服务质量的同时，提升数据重构效率。

一种面向边缘环境的多实例服务链在线部署算法

宋浒, 甘让兴, 夏飞, 邹昊东,

2021, 43(02): 218-227. doi:

摘要 ( 283 )

PDF (975KB) ( 257 ) 　　

边缘设备的资源有限性促使部署边缘服务需要深入理解网络功能的资源消耗情况。通过无线路由器上容器化网络功能部署实验得出，除了处理业务流的计算开销外，网络功能实例间的通信也会消耗大量CPU资源。基于该发现，考虑在近距离和相对低负载的对等边缘设备上分布式地部署网络功能实例，在满足时延约束的条件下均衡流量，从而最小化边缘设备负载。为此，提出细粒度服务链负载模型，并在此基础上设计实现了一种面向边缘环境的多实例服务链在线部署算法。该算法包括基于剪枝搜索策略的时延满足路径搜索、基于嵌套Top K策略的部署路径选择和基于贪心策略的网络功能部署3个组成部分。仿真实验验证了该算法的有效性。实验结果表明，相比不考虑通信开销的网络功能链部署，该算法可以降低10% 边缘设备CPU负载，接近理论最优部署结果。

多GPU系统虚实地址转换架构研究

魏金晖, 李晨, 鲁建壮

2021, 43(02): 228-234. doi:

摘要 ( 284 )

PDF (616KB) ( 273 ) 　　

近年来，随着大数据的发展，GPU应用的数据集规模急剧增加，这对GPU的处理能力提出了挑战。由于摩尔定律即将达到极限，提升单一GPU的性能变得越发困难，而多GPU系统通过提升GPU处理器级的并行性，成为应对该挑战的一种解决方案。GPU制造商对内存虚拟化的支持进一步简化了多GPU系统的编程，提升了资源利用率。内存虚拟化需要地址转换的支持，而地址转换的开销对系统性能具有重要影响。研究了多GPU系统中2种常见的地址转换架构，即分布式地址转换架构和集中式地址转换架构，通过模拟实验对2种架构进行了深度分析和比较，在此基础上提出了优化地址转换设计的建议。

基于LAMP的高性能计算用户组织架构管理系统设计与实现

吴君楠, 欧洋, 李琰

2021, 43(02): 235-241. doi:

摘要 ( 221 )

PDF (753KB) ( 221 ) 　　

针对现有高性能计算用户组织架构管理系统面临的用户体验差、网络开销大和存取效率低等关键问题，提出了一种基于LAMP的高性能计算用户组织架构管理系统的实现方法。该方法采用B/S架构，Twig与HTML相结合的方式减轻了服务端的负担，改善了用户体验；采用REST框架与Cache机制对海量临时数据进行缓存，降低了开发难度和网络开销；采用树形结构对分层数据进行存取，提高了数据存取效率，且可扩展性好。

基于软件定义网络的云边协同架构研究综述

李波, 侯鹏, 牛力, 武浩, 丁洪伟

2021, 43(02): 242-257. doi:

摘要 ( 837 )

PDF (1598KB) ( 932 ) 　　

随着5G和物联网时代的到来以及云计算应用的逐渐增加，各有所长的边缘计算与云计算势必彼此融合进行云边协同，实现云计算与边缘计算的优势互补和协同联动。SDN网络因其灵活开放可编程的网络架构被认为是解决当前云计算和边缘计算协同问题的有效方法。基于云计算和边缘计算的优势与不足对云边协同的必要性和具体内涵进行了梳理，归纳总结了目前SDN对云计算和边缘计算的影响。针对云计算和边缘计算的协同问题提出基于SDN的云边协同网络框架，实现云计算和边缘计算之间的网络、存储、计算等多维度协同，同时还指出了其面临的挑战。

硬件成本缩减的异构分布式嵌入式系统调度算法

邢红星, 魏叶华, 乐懿

2021, 43(02): 258-265. doi:

摘要 ( 188 )

PDF (781KB) ( 229 ) 　　

随着信息技术的发展，工业嵌入式系统的功能规模迅速地增长，大大增加了硬件成本，需缩减硬件成本以提高利润。同时，为满足系统的功能安全约束，对任务和消息进行整体调度的问题也亟待解决。以硬件成本缩减为目标，设计了硬件成本缩减方案，定义了任务到处理器映射、任务和任务、任务和消息等的时序约束关系，提出了基于整数线性规划的硬件成本缩减(IHCR)算法，在保证功能响应时间约束前提下，尽可能多地减少处理器使用数目。仿真实验验证了IHCR算法在满足任务可调度性下硬件成本节约的有效性。

基于RISC-V架构的强化学习容器化方法研究

徐子晨, 崔傲, 王玉皞, 刘韬

2021, 43(02): 266-273. doi:

摘要 ( 334 )

PDF (748KB) ( 290 ) 　　

RISC-V作为近年来最热门的开源指令集架构，被广泛应用于各个特定领域的微处理器，特别是机器学习领域的模块化定制。但是，现有的RISC-V应用需要将传统软件或模型在RISC-V指令集上重新编译或优化，故如何能快速地在RISC-V体系结构上部署、运行和测试机器学习框架是一个亟待解决的技术问题。使用虚拟化技术可以解决跨平台的模型部署和运行问题。但是，传统的虚拟化技术，例如虚拟机，对原生系统性能要求高，资源占用多，运行响应慢，往往不适用于RISC-V架构的应用场景。讨论在资源受限的RISC-V架构上的强化学习虚拟化问题。首先，通过采用容器化技术减少上层软件构建虚拟化代价，去除冗余中间件，定制命名空间隔离特定进程，有效提升学习任务资源利用率，实现模型训练快速执行；其次，利用RISC-V指令集的特征进一步优化上层神经网络模型，
提高强化学习效率；最后，实现整体优化和容器化方法系统原型，并通过多种基准测试集完成系统原型性能评估。容器化技术和传统RISC-V架构下交叉编译深度神经网络模型的方法相比，仅付出相对较小的额外性能代价，能快速实现更多、更复杂的深度学习软件框架的部署及运行；与Hypervisor虚拟机方法相比，基于RISC-V的模型具有近似的部署时间，并大量减少了性能损失。初步实验结果表明，容器化及其上的优化方法是实现基于RISC-V架构的软件和学习模型快速部署的一种有效方法。

基于真实历史反馈的自适应值预测器的设计与优化

隋兵才

2021, 43(02): 274-279. doi:

摘要 ( 244 )

PDF (784KB) ( 229 ) 　　

乱序超标量处理器所能获得的指令级并行能力越来越有限，为了获得更高的指令并行性，必须增加更多的乱序执行和控制资源。随着处理器架构的变化，值预测技术能够在现有主流处理器微架构的基础上以更少的硬件开销，获得更高的数据并行性，进一步提升处理器的乱序执行性能。提出了一种基于真实历史反馈的上下文值预测器（RH-VTAGE），通过设置失效列表和预测精度表来控制反馈RH-VTAGE的预测精度，减少预测失效时的流水线恢复开销。同时，在值预测器的最后阶段增加了真实历史反馈的控制计数器，并设计了自适应置信度控制逻辑，针对不同类型的指令按概率对置信度进行动态调整。实际测试结果表明，相对于其他预测器，RH-VTAGE的整数程序预测性能没有明显提升，但是对于浮点程序性能最大提升31.2%。

基于生成对抗网络的多标签节点分类研究

陈文祺, 王英, 王鑫, 汪洪吉

2021, 43(02): 280-287. doi:

摘要 ( 286 )

PDF (481KB) ( 292 ) 　　

节点分类被广泛应用于社交网络等网络数据处理之中，为了进行节点分类研究，

6LoWPAN网络组播通信方案的研究与设计

孙佳浩, 汪诚诚, 唐道鲜, 李跃华

2021, 43(02): 288-294. doi:

摘要 ( 197 )

PDF (891KB) ( 193 ) 　　

随着无线传感器网络（WSN）对新应用的需求不断增加，基于IEEE 802.15.4实现IPv6通信的低速无线个人局域网标准6LoWPAN是将WSN接入Internet实现全IP通信的理想解决方案。在此提出了一种基于6LoWPAN网络的组播通信方案，通过自组建MAC地址的方式，对现有的6LoWPAN网络增加了对组播通信的支持，设计完成了6LoWPAN网络组播通信方案，降低了组播通信下组内节点接收网关数据的时延，以及组外节点对无关数据的处理消耗。结果分析表明，该组播通信方案下的节点通信时延是单播通信下节点通信时延的15.13%，组外节点数据处理效率比广播通信下的组外节点提高了39.02%。该通信方案能够获得预期功能和性能，6LoWPAN节点能够动态加入和退出组播组，接收组播组内信息。

无线传感器网络节能探索与研究

张华南, 金红, 王峰

2021, 43(02): 295-303. doi:

摘要 ( 254 )

PDF (1040KB) ( 414 ) 　　

无线传感器节点往往由电池供电，由于电池只能存储有限的能量，使得无线传感器网络注定寿命很短，因此，最大限度延长传感器设备的使用寿命是一个重要的研究方向和课题。在本次无线传感器网络节能探索研究中，分析了能量收集与管理策略，能量收集主要收集环境能源，如太阳能，通过超级电容实现能量的存储。能量管理主要通过能量预算让传感器节点处于能量中性区间。为了降低无线传感器节点能量消耗，采用超低功耗唤醒接收器在低能耗的情况下连续侦听信道，降低与通信相关的功耗。星型异步MAC协议和超低功耗唤醒接收器可以结合使用，以提高传感器网络的能源效率。实验结果表明，与传统方案相比，该方案在能源效率、功耗和吞吐量方面都有较大的提高。

复合Petri网的主从式多智能体通信建模方法

王帅辉, 袁杰

2021, 43(02): 304-311. doi:

摘要 ( 177 )

PDF (1373KB) ( 308 ) 　　

针对当前主从式MAS领域通信的硬件成本高、对计算资源占用大等问题，引入复合Petri网建立通信模型。按MAS资源的类型，将复合Petri网的库所设计为状态、行为和时滞3种类型，关联了库所的生效时间。建立了不同优先级消息和通信异常处理的复合Petri网模型，构建了主从式多智能体复合Petri网的通信模型。通过基于主从式小车编队的任务场景实验，验证了多智能体复合Petri网相关模型的可靠性与有效性，缓解了通信消息对系统计算资源的压力，降低了对通信硬件的依赖。

基于超像素形状特征的图像复制粘贴篡改检测算法

魏伟一, 王立召, 王婉茹, 赵毅凡

2021, 43(02): 312-321. doi:

摘要 ( 218 )

PDF (2418KB) ( 221 ) 　　

针对传统图像复制粘贴篡改检测方法中划分子块的数目过大导致算法时间复杂度过高且抵抗几何变换能力较弱的问题，提出一种基于超像素形状特征的图像复制粘贴篡改检测算法。首先提出基于小波对比度自适应划分超像素的方法分割图像并提取稳定的特征点；然后提出新颖的形状编码方式提取超像素形状特征，并与特征点融合，估计可疑伪造区域；最后对可疑伪造区域进行二次超像素分割和匹配，精确定位篡改区域。实验结果表明，提出的算法具有抵抗几何变换、噪声、模糊和JPEG压缩的能力。

一种用于交通标识分类的形状识别算法

邓翔宇, 张屹南, 杨雅涵

2021, 43(02): 322-328. doi:

摘要 ( 288 )

PDF (988KB) ( 266 ) 　　

交通标识分类是交通标识识别系统的基础环节，而交通标识形状识别是交通标识分类的核心部分。对交通标识进行了研究，将交通标识分为禁令标识、警告标识和指示标识3大类分别进行分析，提出了一种利用边缘走势统计特征反映目标形状特征的新算法，并将其与BP神经网络相结合用于交通标识形状的识别。首先利用颜色信息实现交通标识区域分割，随后记录交通标识的边缘走势并统计比例，最后使用BP神经网络进行分类，实现交通标识形状的识别。该算法对不同倾斜角度和不同拍摄角度的交通标识图像均具有很好的识别效果和识别速率。

基于多支路特征融合的行人重识别研究

熊炜, 杨荻椿, 艾美慧, 李敏, 李利荣

2021, 43(02): 329-339. doi:

摘要 ( 249 )

PDF (764KB) ( 341 ) 　　

针对目前行人重识别不能充分利用有效特征信息进行识别的问题，提出了一种基于多支路特征融合的行人重识别模型。首先将3个不同的卷积块分别接出1条支路；然后对每条支路上的特征采用注意力机制、批特征擦除等方法处理；最后将各支路特征进行融合，获得了高细粒度表征能力的特征。训练时，各支路相互监督。在Market1501、DukeMTMC-reID、CUHK03和MSMT17数据集上进行了单域和跨域验证实验，结果表明本文模型具有良好的性能，Rank-1和mAP指标高于大多数主流模型，其中在CUHK03数据集上，Rank-1和mAP分别达到了76.6%和72.8%。

基于动态规划的Needleman-Wunsch双序列比对算法的分析与研究

甘秋云

2021, 43(02): 340-346. doi:

摘要 ( 377 )

PDF (521KB) ( 256 ) 　　

生物序列比对是生物信息学中最基础的研究课题之一。基于动态规划的Needleman- Wunsch双序列比对算法主要采用迭代算法及空位罚分规则对基因序列进行逐一比对，计算二者相似性得分，最后通过回溯分析得出序列之间的最佳比对。虽然该算法可以得到最佳比对结果，但是时间复杂度和空间复杂度较高。首先对原算法进行分析，对计算得分和回溯进行改进。接着设计2次实验，以金黄色葡萄球菌和银葡萄球菌分别作为目标序列和待比对序列，分别生成序列长度范围相同和不同的5组数据进行实验测试。最后通过对新型冠状病毒和SARS病毒全序列进行比对，进一步验证了改进算法的有效性。实验结果表明，改进后的算法可以缩短序列比对时间，提高序列比对效率。

基于多尺度特征融合和残差注意力机制的目标检测

李本高, 吴从中, 许良凤, 詹曙

2021, 43(02): 347-353. doi:

摘要 ( 529 )

PDF (620KB) ( 452 ) 　　

作为一个多任务的学习过程，目标检测相较于分类网络需要更好的特征。基于多尺度特征对不同尺度的目标进行预测的检测器性能已经大大超过了基于单一尺度特征的检测器。同时，特征金字塔结构被用于构建所有尺度的高级语义特征图，从而进一步提高了检测器的性能。但是，这样的特征图没有充分考虑到上下文信息对语义的补充作用。在SSD基准网络的基础上，采用残差注意力的特征融合方法充分利用上下文信息，提高特征图的表征能力，然后利用残差注意力机制强化关键特征。在基准数据集PASCAL VOC上的实验表明，所提方法在输入图像尺寸为300×300和512×512情况下的mAP分别为78.8%和807%。

HEVC中率失真优化算法的动态可重构实现

杨坤, 蒋林, 谢晓燕, 邓军勇, 刘新闯, 胡传瞻

2021, 43(02): 354-361. doi:

摘要 ( 205 )

PDF (791KB) ( 201 ) 　　

基于视频阵列处理器高效视频编码HEVC实现中，HEVC灵活的编码块增加了率失真优化算法硬件实现的难度，难以实现阵列规模和不同块的灵活切换。针对这一问题，提出一种动态可重构的率失真优化实现方法。基于上下文切换的动态重构机制，完成不同规模、不同块大小算法之间的灵活切换，并以率失真优化算法作为帧内模式选择的判别依据，实现帧内预测的模式重构。实验结果表明，与专用硬件实现的率失真优化算法相比，在算法灵活切换的同时，硬件面积减少了8.2%，算法执行的时钟周期数减少了16.5%。

多要素约束下的非法游行路径动态预测方法

邓敏, 徐亮, 石岩, 陈袁芳, 罗靓, 郭艺文

2021, 43(02): 362-369. doi:

摘要 ( 168 )

PDF (1215KB) ( 226 ) 　　

非法游行事件严重危害社会秩序，非法游行群体移动路径的精准预测对区域警力的高效布控具有重要指导作用。现有相关研究无法同时顾及游行事件中吸引要素和排斥要素对游行群体路径选择的综合影响，导致对游行群体未来移动路径的预测精度低。为此，
提出了一种多要素约束下的非法游行路径动态预测方法。首先借助距离衰减理论，耦合游行群体实时位置和地理多要素空间分布构建动态加权无向图，在此基础上建立多要素约束的路径优化数学模型，利用Floyd算法求解游行群体当前位置与目的地间的移动路径。通过对3个非法游行历史事件进行实验对比分析发现，所提方法预测结果与真实游行路径在长度、路段和节点3个维度的吻合度均高于80%，比现有方法更精准有效。

基于注意力机制的深度学习推荐研究进展

陈海涵, 吴国栋, 李景霞, 王静雅, 陶鸿

2021, 43(02): 370-380. doi:

摘要 ( 590 )

PDF (977KB) ( 837 ) 　　

近年来，注意力机制AM被广泛应用到基于深度学习的自然语言处理任务中，基于注意力机制的深度学习推荐也成为推荐系统研究的一个新方向。探讨了注意力机制的结构和分类标准，从基于注意力机制的DNN推荐、CNN推荐、RNN推荐、GNN推荐4个方面分析了现有融合注意力机制的深度学习推荐研究的主要进展和不足，阐明了其中的主要难点，最后指出了多特征交互的注意力机制推荐、多模态注意力机制深度学习推荐、融入注意力机制的多种深度神经网络混合推荐和注意力机制的群组推荐等基于注意力机制的深度学习推荐未来的主要研究方向。

当期目录

作者中心

审稿中心

在线期刊