计算机工程与科学

2024年第8期目录

2024, 46(8): 0-0. doi:

摘要 ( 560 )

PDF (254KB) ( 376 ) 　　

基于SRAM缓存和存内计算的低功耗关键词唤醒系统

黄至锐, 贾心茹, 朱浩哲, 陈迟晓,

2024, 46(8): 1331-1339. doi:

摘要 ( 934 )

PDF (2185KB) ( 997 ) 　　

为了解决关键词唤醒算法部署在边缘计算硬件会带来较高功耗、给电池驱动的设备带来续航挑战的问题，提出了一种基于存内计算技术和软硬件协同优化的低功耗关键词唤醒系统。在算法层面，基于标准MFCC算法拓扑结构提出了一种三值量化MFCC-CNN联合算法，将MFCC中的全部通用矩阵乘映射到神经网络加速器当中。在电路层面，提出了一种基于SRAM的存内计算核心，用于解决传统冯·诺依曼架构加速器存在的功耗墙和存储墙问题。同时通过复用存内计算核心的SRAM存储功能提出了一种基于查找表实现的缓存电路，用于替代寄存器延迟链电路。SRAM存内计算核心和SRAM缓存电路均采用定制单元实现。在系统层面，基于以上2种定制电路设计了一种低功耗关键词唤醒系统。该系统采用ASIC与定制化电路设计流程设计，并使用28 nm CMOS 工艺库对该设计进行了ASIC综合，在250 kHz下，关键词唤醒系统运行10分类任务的延迟是64 ms，整体功耗为645.28 μW，其中MFCC流水线的动态功耗占总动态功耗的5.9%，总功耗仅占系统功耗的1.3%。

基于FPGA和行折叠的稀疏矩阵向量乘优化

周智, 高建花, 计卫星

2024, 46(8): 1340-1348. doi:

摘要 ( 1474 )

PDF (2277KB) ( 917 ) 　　

稀疏矩阵向量乘（SpMV）是科学与工程计算中的一个关键内核。由于稀疏矩阵中不规则的数据分布和SpMV计算中不规则的访存操作，SpMV在多核CPU和GPU等设备上的性能与这些设备的理论峰值还具有较大差距。现有的CPU和GPU由于在架构上受到限制，导致它们无法很好地利用稀疏矩阵的特殊结构来加速SpMV计算，而现场可编程门阵列（FPGA）可以通过自定义电路实现高效的并行运算，能够更好地处理稀疏矩阵的计算和存储问题。基于FPGA提出了一种SpMV优化方法，该优化方法基于高级综合的流式处理引擎，采用了一种自适应多行折叠的SpMV优化策略。该方法通过行折叠减少了处理引擎中零元的无效存储和计算，从而提升了基于FPGA的SpMV计算性能。实验结果表明，相比于现有的FPGA实现方案，设计的基于行折叠优化的数据流引擎实现了最高1.78倍和平均1.15倍的加速。

面向离散粒子多尺度分析CPU/GPU架构的并行近邻搜索算法

代长威, 孔瑞林, 季哲,

2024, 46(8): 1349-1360. doi:

摘要 ( 988 )

PDF (2237KB) ( 786 ) 　　

离散粒子法在解决前沿科学和工程领域中的复杂多尺度问题中具有广泛的应用。针对离散粒子大规模多尺度计算中相邻粒子对搜索过程计算复杂度显著增加和并发度下降的问题，提出了一种适用于众核架构（CPU/GPU）的高并发、低内存占用并行近邻搜索算法。通过提出一种基于多层嵌套网格概念的层间相互作用方法，解决了不同层级间粒子对相互搜索时的数据竞争问题；通过引入非对称映射方法，避免了粒子在多级链表上的全映射，降低了内存消耗。一系列数值实验表明，该算法可有效处理108量级粒子体积跨度变化的多尺度问题，相较于传统算法可取得2~8倍的加速效果和更低的内存消耗特性，基于GPU的算法实现可达到当前领先的计算效率。

边缘侧神经网络块粒度领域自适应技术研究

辛高枫, 刘玉潇, 张青龙, 韩锐, 刘驰

2024, 46(8): 1361-1371. doi:

摘要 ( 1146 )

PDF (3514KB) ( 573 ) 　　

深度神经网络在边缘设备上运行时会面临模型缩放和域自适应2个挑战，现有的模型缩放技术和无监督在线域自适应技术存在缩放粒度粗、缩放空间小和在线域自适应时间长的问题。针对这2个挑战，提出一种块粒度的模型缩放和域自适应训练方法EdgeScaler，它包括离线和在线2个阶段。针对模型缩放挑战，离线阶段能够从各种DNN中检测和抽取块，并将其转换为多个派生块；在线阶段基于块和块之间的组合，提供大规模的缩放空间，解决模型缩放问题。针对域自适应挑战，设计了一种针对于块的残差 Adapter，在离线阶段将其插入块中；在线阶段当新的目标域到来时，对所有的Adapter进行训练，解决块粒度缩放空间中所有选项的域自适应问题。在真实的边缘设备 Jetson TX2上的测试结果表明，在提供大规模缩放选项的基础上，所提方法可以将域自适应训练时间平均减少 85.14%，训练能耗平均减少84.1%。

基于DPCT的序列比对软件迁移与性能评估

李沛桢, 张洋, 陈文波

2024, 46(8): 1372-1380. doi:

摘要 ( 1468 )

PDF (1908KB) ( 599 ) 　　

利用GASAL2序列比对软件探索CUDA程序迁移到DPC++的过程。迁移过程中利用DPCT工具自动将CUDA API转换至DPC++API。然而，迁移后的代码仍需经过适配和修改才能正确编译和运行。评估DPCT工具从CUDA程序迁移到DPC++程序的有效性，并展示DPC++在不同架构下的高效性。实验证明迁移后的程序保持了原始程序的精确度，且无需代码修改便可在异构设备Intel GPU架构上运行，同时迁移后的基于DPC++的GASAL2异构计算性能可以达到原始基于CUDA GASAL2的计算性能的大约90%~95%，充分展现了DPC++异构编程的可行性，为跨平台异构编程充分利用更广泛的硬件支持提供了有前景的解决方案。

一种基于动态空间划分和压缩布隆过滤器相结合的分布式元数据负载均衡算法#br#

薛梅婷, 俞万刚, 张纪林, 曾艳, 袁俊峰, 周丽

2024, 46(8): 1381-1389. doi:

摘要 ( 1252 )

PDF (994KB) ( 924 ) 　　

分布式元数据管理系统利用多个元数据服务器对大量元数据进行存储和管理。该系统将海量元数据通过不同的映射策略分配到不同的元数据服务器上，减少单台元数据服务器所处理的数据量，从而减少磁盘访问次数，进而提高整个元数据管理系统的性能。元数据管理系统通常会使用哈希函数将元数据键映射到不同的元数据服务器中。然而，当数据特征值相似时，由于散列函数的单向性，会导致数据分布不均衡的问题，造成元数据服务器性能下降。为解决上述问题，提出了一种动态空间划分和压缩布隆过滤器相结合的元数据负载均衡算法，该算法首先构建一个哈希桶来组织元数据键，通过哈希算法将元数据键映射到不同的哈希桶中；在映射过程中，根据元数据服务器的负载情况动态调整目标哈希桶，并在上述哈希桶中有序地保存元数据键的映射信息。当访问元数据时，首先通过压缩布隆过滤器对元数据键进行预处理，然后通过二分查找在指定的哈希桶中进行元数据映射信息的查找。与近年来提出的元数据管理算法相比，所提算法在映射键发生倾斜时仍能保证元数据服务器负载均衡，并通过对比实验表明，所提算法相比最优的元数据管理算法，在内存占用仅提升2%的条件下，获得了20%的搜索性能提升。

基于BOOM处理器的访存逻辑优化

周蔺宁, 刘杰, 李洪奎, 付浩东, 刘红海, 肖浩

2024, 46(8): 1390-1394. doi:

摘要 ( 1120 )

PDF (669KB) ( 585 ) 　　

BOOM处理器采用的Store指令回查策略虽然解决了访存指令乱序执行引发的数据冲突问题，但是该策略会导致流水线的大量冲刷，降低了处理器的性能。对此，提出了一种访存指令的相关性预测方法。该方法取消了Load指令访存前的查询操作，增加了Load指令相关性预测表，只有预测为无相关性的Load指令才可以乱序执行。这种方法在保证程序逻辑正确的前提下避免了大量冲刷流水线。测试程序采用SPEC CPU 2006下的7个子程序，实验结果表明，改进后的处理器执行程序的性能平均提升了3.5%。

S-JSMA：一种低扰动冗余的快速JSMA对抗样本生成方法

刘强, 李沐春, 伍晓洁, 王煜恒

2024, 46(8): 1395-1402. doi:

摘要 ( 940 )

PDF (658KB) ( 763 ) 　　

基于深度学习神经网络模型的技术被广泛应用在计算机视觉、自然语言处理等领域。然而，研究人员发现，神经网络模型自身存在着显著的安全隐患，例如，容易遭到对抗样本的攻击。研究针对图像分类的对抗样本相关技术能帮助人们认识到神经网络模型的脆弱性，进而推动相关模型的安全加固机制研究。针对JSMA方法存在高时间开销与扰动冗余的问题，提出了一种低扰动冗余的快速JSMA对抗样本生成方法S-JSMA。该方法使用单步操作替代迭代操作以简化JSMA的算法流程，并使用简易扰动取代JSMA中基于显著图的扰动，从而极大地降低了对抗样本生成的时间开销和扰动冗余。基于MNIST数据集的实验结果表明，相较于JSMA和FGSM方法，S-JSMA能在显著短的时间内取得较好的攻击效果。

智慧医疗系统中可容错的多维度密文跨域聚合方案

张晓均, 李兴鹏, 张经伟, 唐伟

2024, 46(8): 1403-1413. doi:

摘要 ( 991 )

PDF (982KB) ( 613 ) 　　

为解决智慧医疗系统中数据孤岛问题，实现医疗数据安全汇聚的目标，同时确保医疗数据传输与存储过程的机密性、完整性与可用性，提出了支持传输容错的可验证多维医疗密文跨域聚合方案。该方案将边缘服务器集成到传统的云计算架构，通过设计同态加密算法，并结合Shamir秘密共享技术，实现多维度加密数据可传输容错的2层聚合。该方案设计了基于椭圆曲线的数字签名算法，确保医疗加密数据在传输与存储过程中的完整性。医疗数据分析中心可以向云服务器灵活选取目标区域进行跨域聚合，并借助云审计机制对获取到的聚合结果进行轻量级完整性验证。根据霍纳法则，医疗数据分析中心利用解密私钥可以直接获得相应区域终端用户各个维度医疗数据的聚合结果。通过安全性分析与性能比较表明，该方案能够安全高效地部署在智慧医疗系统。

区域敏感的群智感知隐私保护任务分配机制

王永军, 刘瀚阳, 王辉, 申自浩, 刘琨, 刘沛骞

2024, 46(8): 1414-1424. doi:

摘要 ( 1743 )

PDF (1524KB) ( 718 ) 　　

为解决现有移动群智感知任务分配机制对地理区域不敏感造成的效率与隐私问题，设计了一种基于区域热度的任务分配机制（HTPM）。该机制通过对历史数据的分析实现任务个性化发布，提高工作者申请成功率，减少位置隐私暴露次数。首先，基于Geohash算法的自适应网格划分算法（G-AGM）通过对历史数据分析完成对任务区域的划分；其次，HTPM依据划分结果赋予任务位置相对应的任务匹配前缀，并根据招聘结束时间动态更新任务匹配前缀完成任务发布；最后，使用概率代价最小胜者选择机制（LPC-WSM）完成胜者的选取。基于墨西哥城和基多出租车数据集的仿真实验表明，使用HTPM机制的人均申请次数降低30.3%，可以达到保证位置隐私保护强度、提高任务分配效率的目的。

基于加权非负矩阵分解的异常声音检测方法研究

潘雨青, 于浩, 李峰

2024, 46(8): 1425-1432. doi:

摘要 ( 1997 )

PDF (768KB) ( 732 ) 　　

异常声音检测方法多用强标签数据进行训练，而高质量的强标签音频数据标注难度较大、收集成本高昂。针对现有异常音频检测方法使用弱标签数据会受到非平稳和时变噪声的干扰，导致训练结果较差、准确率低的问题，提出一种基于音频频谱的加权非负矩阵分解WNMF方法。该方法使用WNMF对弱标签和无标签数据进行标记，并分离目标声音事件和背景噪声。在适当的权值下，WNMF改变标记时不同频段音频信息的重要性，以抑制噪声，提高分离质量，使其逼近全监督模型训练的效果；之后使用卷积神经网络产生帧级预测和音频标签预测。仿真实验结果表明，该方法的准确率相比于传统NMF处理弱标签数据的方法提升了4.8%。

多阶段特征蒸馏加权的轻量级图像超分辨率网络

杨胜荣, 车文刚, 高盛祥, 赵云莱

2024, 46(8): 1433-1443. doi:

摘要 ( 1386 )

PDF (1178KB) ( 719 ) 　　

针对在轻量化网络中提取底层特征感受野不足以及缺乏对局部关键特征强化的问题，提出一种多阶段特征蒸馏加权的轻量级图像超分辨率网络LMSWN。首先，通过类金字塔模块扩大对浅层特征提取时的感受野，融合不同尺度的特征信息，丰富网络的信息流；其次，设计多阶段残差蒸馏加权模块用于增强方形卷积提取局部关键特征的能力，以恢复更多细节信息提高重建性能，同时将通道分离与1×1卷积结合共同实现对特征的逐级蒸馏，减少网络参数量；最后，引入2个自适应参数对多阶段残差蒸馏加权模块的2条支路特征进行联合学习，提升对不同层次特征信息的关注度，进一步增强网络的表征能力。实验结果表明，在 Set 5、Set 14、BSD 100、Urban 100 和 Manga 109 这5个基准测试集上的实验充分验证了所提网络的有效性，其性能超过了当前主流轻量级网络。

Bi-YOLO：一种基于YOLOv8n改进的轻量化目标检测算法

刘子洋, 徐慧英, 朱信忠, 李琛, 王泽宇, 曹雨淇, 戴康佳

2024, 46(8): 1444-1454. doi:

摘要 ( 1873 )

PDF (3044KB) ( 2280 ) 　　

以YOLOv8为代表的单阶段目标检测算法，在骨干网络中有比较明显的优化，但在颈部网络未能高效地融合上下文信息，导致在小目标检测方面存在漏检、错检的问题，并且还存在模型参数量大、计算复杂度高的问题，无法满足端到端的工业部署需求。针对以上问题，引入基于Transformer结构的BiFormer注意力机制，加强对小目标的检测性能，提升算法的精度；引入GSConv模块，在保证算法性能不受到负面影响的前提下减小算法规模。为了平衡BiFormer带来的计算量和参数量的增加，设计了一种名为Bi-YOLO的目标检测算法，以达到轻量化和算法性能的平衡。实验结果表明，Bi-YOLO目标检测算法和YOLOv8n相比，算法精度提高了4.6%，DOTA数据集小目标检测精度提高了2.3%，参数量下降了12.5%。Bi-YOLO有效实现了模型轻量化和性能的平衡，为端到端的工业部署提供了新思路。

基于YOLOv8 改进的室内行人跌倒检测算法FDW-YOLO

陈晨, 徐慧英, 朱信忠, 黄晓, 宋杰, 曹雨淇, 周思瑜, 盛轲

2024, 46(8): 1455-1465. doi:

摘要 ( 2067 )

PDF (1677KB) ( 1775 ) 　　

针对室内场景中由于光照变化、人体形态被遮挡以及在特殊视角下人体姿态变化等因素导致行人跌倒检测精度低、实时性差的问题，提出了一种基于YOLOv8改进的轻量级跌倒检测算法FDW-YOLO。将骨干网络中的C2f模块替换成FasterNext模块，增强有效特征复用的同时降低计算复杂度。根据人体跌倒姿势变化大的特点，设计了3种在颈部层不同位置添加动态可变形卷积模块的网络结构，并在自制的跌倒行为目标检测数据集上进行实验比较，最终根据网络性能选择YOLOv8-C方案。在改进后的网络中引入边界框回归损失函数WIoU取代原有的CIoU。实验结果表明，FDW-YOLO跌倒检测算法较YOLOv8n在mAP@0.5指标上从96.5%提升到97.9%，在mAP@0.5:0.95指标上从72.5%提升到74.3%，同时参数量和计算量只有4.1×106和7.3×109，符合在低算力工业场景中部署的要求。

基于健康码打卡数据的疫情轨迹描述模型研究#br#

万泽宇, 张飞舟

2024, 46(8): 1466-1472. doi:

摘要 ( 1918 )

PDF (1470KB) ( 906 ) 　　

疫情深刻改变了世界格局，在现有的疫情时空建模分析中，缺乏对个体及其群体轨迹的准确描述，难以满足精准防疫需求。针对此问题，在分析现有的疫情时空分析方法、轨迹描述模型基础上，结合健康码打卡数据，以经纬度和时间为轴建立时空三维坐标系，以健康码打卡数据作为轨迹节点，呈现携带者以及密接者的时空轨迹，依次对单人、双人以及多人的轨迹进行准确描述，进而构建融合时空拓扑关系的“山”型轨迹描述模型，从而在三维坐标系中准确定位需要防控的时空范围，以达到精准防疫的目的。在Foursquare Dataset仿真数据集上的实验表明，“山”型轨迹模型有效缩小了排查范围，减少了排查人员数量，具有广阔的应用情景。

一种基于多特征融合嵌入的中文命名实体识别模型研究

刘晓华, 徐茹枝, 杨成月

2024, 46(8): 1473-1481. doi:

摘要 ( 1864 )

PDF (826KB) ( 854 ) 　　

为解决中文字形上存在差异以及中文词语边界模糊的问题，提出了一种多特征融合嵌入的中文命名实体识别模型。在提取语义特征的基础上，基于卷积神经网络和多头自注意力机制捕获字形特征，并参考词语向量嵌入表获取词语特征，同时利用双向长短期记忆神经网络学习长距离的上下文表示，最后结合条件随机场学习句子序列标签中的约束条件，实现中文命名实体识别。在Resume、Weibo和People Daily数据集上的F1值分别达到了96.66%，70.84%和96.15%，证明提出的模型有效地提高了中文命名实体识别任务的性能。

基于Fuch映射的改进白鲸优化算法及应用

陈心怡, 张孟健, 王德光

2024, 46(8): 1482-1492. doi:

摘要 ( 1509 )

PDF (1650KB) ( 1705 ) 　　

针对标准白鲸优化算法(BWO)存在收敛精度低、自适应能力有限和抗停滞能力弱等缺点，从混沌初始化、参数混沌和非线性控制策略3个角度，提出2种基于Fuch映射和动态反向学习的改进白鲸优化算法(CIOEBWO和CPOEBWO)。采用Fuch混沌初始化，提高算法初始化种群的遍历性，从而提升算法寻优精度和收敛速度；在开发阶段，引入Fuch混沌映射对参数C1进行动态调节，协调算法的全局搜索和局部搜索，有效提高算法自适应能力；基于上述2种改进方式，分别引入动态反向学习策略，丰富优质个体数量，提升算法整体抗停滞能力。根据8种基本测试函数仿真实验和Friedman秩检验结果可得，改进算法的收敛精度、自适应能力和抗停滞能力均得到了有效提升。与BWO和CIOEBWO相比，CPOEBWO显现出较为优异的性能。此外，从CPOEBWO与常见的6种对比算法的寻优结果可知，CPOEBWO算法有较强的寻优能力和鲁棒性。最后，为展示CPOEBWO算法的适用性和有效性，将其应用于工程优化问题。

一种模糊时间序列概率预测方法

董文超, 郭强, 张彩明,

2024, 46(8): 1493-1502. doi:

摘要 ( 822 )

PDF (872KB) ( 814 ) 　　

在时序预测任务中，历史观测值的不确定性给预测带来了困难。而模糊时间序列预测方法在处理数据不确定性方面具有独特的优势。概率预测则能够提供预测目标的分布情况，从而量化预测结果的不确定性。因此，为了减少不确定性对预测任务的影响，提出了一种基于概率加权策略的模糊时间序列概率预测方法。该方法利用预测目标的历史观测值建立概率加权的模糊时间序列预测模型，通过引入额外的观测值对预测模型的模糊规则库进行细化。在细化过程中，使用2种计算成本较低的算子重构模糊逻辑关系。具体地，交算子用于剔除干扰的信息，并算子则融合所有信息，从而得到2个不同的模糊逻辑关系组集合。当前时刻观测值在2个集合中对应的模糊逻辑关系组即为对下一时刻模糊集的预测，最后经过解模糊输出下一时刻的概率分布。在公开时间序列数据集上验证了该方法的准确性和有效性，与近期提出的PWFTS预测方法相比，预测精度有显著提高。

一种基于注意力机制的轻量级语义分割

马冬梅, 王鹏宇, 郭智浩

2024, 46(8): 1503-1512. doi:

摘要 ( 1232 )

PDF (1024KB) ( 925 ) 　　

语义分割是一种计算机视觉技术，它需要从大量的图像中提取出重点信息，然后通过掩膜的方式，将这些信息转化成更加清晰、易于理解的表达形式。研究人员正在努力寻求一种平衡，在保证模型精度的同时，尽可能减小模型的体积，这也是当前设计轻量级网络模型的热门话题。当前，图像语义分割技术存在许多挑战，如分割不连续、错误分割和模型复杂度过高。为了解决这些问题，提出了一种基于注意力机制的轻量级语义分割模型。该模型采用冻结解冻训练，特征提取网络是MobileNetV2，为了恢复较清晰的目标边界，在空洞金字塔池化（ASPP）输出部分引入轻量级的卷积注意力（CBAM）模块或在解码部分引入通道注意力(ECA-Net)；为了解决样本不均衡的问题，引入了focal_loss损失函数；使用了混合精度和替换了输出端的标准卷积——DO-Conv卷积，在PASCAL VOC 2012和Cityscapes数据集上进行实验和验证，模型的大小为23.6 MB，平均交并比分别为73.91％和74.89%，类别平均像素准确率分别82.88%和84.87%,成功地在精确分割和计算效率之间取得了平衡。

结合混合特征提取与深度学习的长文本语义相似度计算

徐捷, 邵玉斌, 杜庆治, 龙华, 马迪南

2024, 46(8): 1513-1520. doi:

摘要 ( 1429 )

PDF (683KB) ( 2400 ) 　　

文本语义相似度计算是自然语言处理中一项非常重要的任务，但是目前对于文本语义相似度的研究多集中在短文本领域，而不是长文本。相较于短文本，长文本语义信息丰富，但同时语义信息容易分散。针对长文本语义信息分散的问题，提出一种特征提取模型，提取出长文本的主要语义信息；对提取的语义信息使用滑窗重叠的方法输入BERT预训练模型得到文本向量表示；然后，通过双向长短期记忆网络建模长文本的前后语义联系，将其映射到语义空间内；再通过线性层增加模型表示能力；最后，通过相似语义向量内积最大化和交叉熵损失函数进行微调。实验结果表明，该模型在CNSE和CNSS数据集上F1分数分别为0.84和0.91，性能优于基线模型。

当期目录

作者中心

审稿中心

在线期刊