计算机工程与科学

2024年第9期目录

2024, 46(9): 0-0. doi:

摘要 ( 518 )

PDF (247KB) ( 446 ) 　　

基于便笺式存储器的向量化SpMV算法的性能评估与分析

张宗茂, 董德尊, 王子聪, 常俊胜, 张晓云, 王绍聪

2024, 46(9): 1521-1528. doi:

摘要 ( 671 )

PDF (1120KB) ( 1010 ) 　　

便笺式存储器是一种结构简单、访问延迟固定且软件可直接控制的片上高速存储，在现代处理器设计中得到了广泛应用。稀疏矩阵向量乘SpMV是高性能计算、人工智能等应用领域重要的内核计算函数之一。在传统多级Cache处理器中，SpMV算法计算过程中对稠密输入向量的不规则访问操作会导致大量Cache访问请求失效，从而影响SpMV算法执行效率。为了评估便笺式存储器对SpMV向量算法的性能影响，使用ARM SVE指令对基于CSR格式的SpMV算法向量化，并将算法中的热点数据即稠密输入向量存储在便笺式存储器中，在集成了便笺式存储器的ARM架构处理器中对SpMV向量算法进行了性能分析。在gem5模拟器中针对来自真实应用程序的2 562个稀疏矩阵进行了实验。实验结果表明，集成了便笺式存储器的处理器与传统多级Cache处理器相比，针对向量化SpMV算法能够实现的最大加速比为7.45，平均加速比为1.11。

面向结构矩阵的可扩展并行矩阵乘算法框架

李胜国, 廖霞, 于恒彪, 黄春, 姜浩, 逯喜燕, 王华林, 成礼智

2024, 46(9): 1529-1538. doi:

摘要 ( 717 )

PDF (1176KB) ( 823 ) 　　

摘要：结构矩阵在科学计算和工程应用中具有重要作用，例如Cauchy、Toeplitz、Vandermonde和Hankel矩阵等。虽然这些矩阵都是稠密的，但只需要O(n)个参数(生成元)就可以表示，其中n为矩阵的维数。提出了面向结构矩阵的可扩展并行矩阵乘算法框架，利用矩阵生成元显式地构造各进程的局部矩阵块，从而减少通信开销；同时利用矩阵块的数值低秩性，进一步降低计算开销。因此，该算法框架可同时降低计算量和通信量，适用于Cannon、Fox和PUMMA等矩阵乘算法。在天河2巨型机上进行了大量的数值测试，测试结果表明，该算法可获得相对ScaLAPACK中的PDGEMM函数的8.96倍加速。

一种面向计算图的及时内存重用算法

曹博钧, 钱入意, 徐远超

2024, 46(9): 1539-1546. doi:

摘要 ( 910 )

PDF (807KB) ( 657 ) 　　

有限的设备内存容量制约了深度神经网络模型的进一步发展，内存重用是少有的在不引入额外开销的前提下节省内存使用的方法之一。计算图中的中间张量占据着主要的内存空间，是内存重用算法的主要优化对象。现有的典型内存重用算法，包括大张量优先算法和短生命周期优先算法，仅从单一特征出发，只考虑张量之间的生命周期是否重叠，忽略了邻近张量之间的生命周期相对位置关系，计算图越复杂，对内存重用的挖掘越不够充分。针对该问题，提出一种新的内存重用算法——UMR，通过深入分析图中邻近张量的生命周期相对位置关系，并及时进行重用，从而获得了更多的内存重用机会。基于MLPerf中的真实推理模型对算法进行评估，结果显示UMR算法的内存重用率不低于现有的主流算法，且能达到该模型内存重用的理论最优。基于相对复杂的计算图对算法进行的评估表明，与大张量优先与短生命周期优先2种算法相比，UMR算法最高节省了21.6%和18.7%的内存占用，平均分别节省了6.5%与13.2%的内存占用。

适应于硬件部署的神经网络剪枝量化算法

王鹏, 张嘉诚, 范毓洋,

2024, 46(9): 1547-1553. doi:

摘要 ( 1874 )

PDF (1042KB) ( 1049 ) 　　

深度神经网络由于性能优异已经在图像识别、目标检测等领域广泛应用，然而其包含大量参数和巨大计算量，导致在需要低延时和低功耗的移动边缘端部署时困难。针对该问题，提出一种用移位加法代替乘法运算的压缩算法，通过对神经网络进行剪枝和量化将参数压缩至低比特。该算法在乘法资源有限的情况下降低了硬件部署难度，可满足移动边缘端低延时和低功耗的要求，提高运行效率。对ImageNet数据集经典神经网络进行了实验，结果表明神经网络的参数在压缩到4 bit的情况下，其准确率与全精度神经网络的基本一致，甚至在ResNet18、ResNet50和GoogleNet网络上的Top-1/Top-5准确率还分别提升了0.38%/0.22%,0.35%/0.21%和1.14%/0.57%。对VGG16第8层卷积层进行实验，将其部署在Zynq7035上，结果表明,压缩后的网络在使用的DSP资源减少43%的情况下缩短了51.1%的推理时间，并且减少了46.7%的功耗。

面向深度行情因子挖掘的分布式训练关键技术研究

赵鑫博, 陆忠华

2024, 46(9): 1554-1565. doi:

摘要 ( 1111 )

PDF (1977KB) ( 1436 ) 　　

深度行情数据是沪深交易所的新一代实时行情数据产品，是普通基础行情数据的升级版，是目前国内信息密度最高、蕴含信息量最大、挖掘最不充分的行情数据，对挖掘证券市场潜在风险具有重要价值。但是，现有研究缺少基于深度行情数据面向证券市场的风险度量和计算分析，且全市场深度行情数据规模大，用于提取信息的深度学习模型也越来越复杂，尽管当下硬件的计算能力也在一直不断地发展与提高，但仍然无法解决训练耗时长、效率低等问题。因此，基于沪深300成分股深度行情数据，利用深度学习等方法挖掘高频波动率因子，构建了基于TabNet与LightGBM的高频波动率预测模型。同时，提出了一种基于并行差分进化的分布式训练算法Parallel_DE，用于模型分布式训练过程中的参数计算，并详细阐述了其场景映射方案与整体流程设计。针对上述2项工作基于自有分布式训练平台进行充分验证，实验结果表明，高频波动率预测模型可以对已实现波动率进行高精度预测，且效果相较于其他方法具有一定优越性；Parallel_DE算法可以在一定程度保留参数多样性的同时，有效减少本地参数在测试集上的误差，从而高效率分布式地训练出性能优良的深度学习模型，为证券市场的风险识别提供了面向深度行情数据的相关技术与方法。

基于OpenMP的硅晶体分子动力学模拟的空间分解着色及向量化研究#br#

傅游, 韩昊, 孙月娇, 梁建国, 叶雨曦, 花嵘

2024, 46(9): 1566-1575. doi:

摘要 ( 505 )

PDF (1081KB) ( 736 ) 　　

作为材料领域虚拟过程工程研究的热点之一，硅晶体分子动力学采用Tersoff多体势进行模拟；多体势中粒子间相互作用计算量大，且数据之间存在依赖关系，在并行架构上高效、准确地进行大规模模拟面临写冲突和计算效率低2个挑战。为了解决以上问题，在OpenMP共享内存编程模型的基础上，结合硅晶体粒子特性实施了一系列面向硅晶体分子动力学应用的优化方法，以提高模拟效率：(1) 在大规模线程级并行模拟过程中，利用空间分解图着色思想消除粒子之间的数据依赖，从而有效解决写冲突问题；(2) 针对核心计算程序段，采用整体向量化的方式提高核心计算效率，并利用级数估计实现超越函数，以实现Tersoff多体势在多核处理器上的并行优化。实验结果表明，在X86平台上Tersoff多体势具有很好的优化潜力，空间分解图着色和向量化方法在硅晶体应用上具有可行性和可扩展性，能够有效地解决由数据交叉导致的写冲突以及计算密集型优化问题，最终加速比可达23.17。

基于图神经网络的OMCI模型相似性计算

袁佳伟, 赵进

2024, 46(9): 1576-1586. doi:

摘要 ( 929 )

PDF (922KB) ( 1065 ) 　　

光网络单元管理和控制接口OMCI，是千兆无源光网络GPON系统中光线路终端OLT与光网络单元ONU之间进行互联互通的重要协议。在解决OMCI互通问题的过程中，经常需要开发人员对OMCI业务模型进行异常分析，但由于OMCI领域知识的复杂性，对于缺乏经验的开发人员直接分析OMCI业务模型是非常困难的，并且耗时耗力。因此，针对上述实际问题中的挑战，提出了一种基于图神经网络进行OMCI模型异常分析的方法，通过图相似性计算算法，从数据库中查找相似的OMCI模型作为参考，然后比较差异性，找到异常点。首先将真实的OMCI数据构建成图数据，然后结合图同构网络与自注意力池化改进快速计算图相似性模型（SimGNN），最后计算OMCI图数据库中每个图与异常图数据的相似性得分，根据得分排名推荐出最相似的若干OMCI 业务模型图。实验结果表明，改进的图相似性计算模型与基准模型相比，在OMCI数据集上性能有所提升，并且在实际应用中也是有效的，对OMCI互通问题的分析起到了一定的帮助作用。

一种基于多特征的日志事件异常检测方法研究

余佳妮, 胡朝霞, 蒋从锋

2024, 46(9): 1587-1597. doi:

摘要 ( 812 )

PDF (1539KB) ( 907 ) 　　

随着计算机系统规模增大、系统复杂性增加和用户服务质量要求提高，日志系统的重要性日益提高。日志用于记录计算机系统运行过程中产生的数据或事件，日志记录中的异常数据往往表明系统存在性能波动、异常或故障。针对现有的日志异常检测研究多采用单一特征进行异常检测，存在低效、不完备和误判率高等问题，提出基于多特征的日志事件异常检测方法。首先，定义了日志的多元特征，包括序列、定量、语义和时间特征。其次，采用BERT结合TF-IDF获取语义特征向量，并通过特征融合获取模型的输入特征。最后，建立基于注意力机制的Bi-LSTM异常检测模型。实验表明该异常检测模型在精确度上有一定提升，对于辅助发现日志异常具有一定参考作用。

基于同态加的压缩感知加密域信息隐藏算法

李名, 信鑫

2024, 46(9): 1598-1605. doi:

摘要 ( 1218 )

PDF (1790KB) ( 715 ) 　　

信息隐藏可为云和物联网环境中的海量数据提供必要的安全保护，传统的加密技术虽然有效保护了图像的隐私，但是无法同时提供版权、完整性等方面的保护，因此，在加密域进行信息隐藏面临着较大的需求和挑战。提出了一种在压缩感知同态加密域进行信息隐藏的算法。首先，对压缩感知的同态性进行探索，发现对压缩感知获得的测量值进行加倍，与直接扩展原始信号后再进行压缩感知具有相同的效果。然后，利用同态加运算实现基于差分扩展的压缩感知加密域的信息隐藏。实验仿真结果表明，该算法具有较好的隐私保护性能和信息隐藏性能,并且与最新的加密域信息隐藏算法相比，具有更高的嵌入容量。

基于差分隐私与模型聚类的安全联邦学习方案

肖迪, 余柱阳, 李敏, 王莲

2024, 46(9): 1606-1615. doi:

摘要 ( 1287 )

PDF (1150KB) ( 836 ) 　　

联邦学习中的模型安全以及客户隐私是亟待解决的重要挑战。为了同时应对这2大挑战，提出了一项基于差分隐私与模型聚类的联邦学习方案，该方案兼顾模型安全与隐私保护。通过在客户更新中引入局部差分隐私扰乱客户上传的参数以保护客户的隐私数据。为保证对加噪模型更新的精准聚类，首次定义余弦梯度作为聚类指标，并根据聚类结果精准定位恶意模型。最后引入全局差分隐私以抵御潜在的后门攻击。通过理论分析得到全局噪声的噪声边界，并证明了本方案引入的噪声总量低于经典模型安全方案所引入的噪声总量。实验结果表明，本方案能够达成在精度、鲁棒以及隐私3方面的预期目标。

多尺度特征融合的移动端单目深度估计研究

陈磊, 梁正友, 孙宇, 蔡俊民

2024, 46(9): 1616-1524. doi:

摘要 ( 1260 )

PDF (876KB) ( 859 ) 　　

目前基于深度学习的深度估计模型参数量大，难以适应移动端设备。针对此问题，提出一种可以部署在移动端的多尺度特征融合轻量级深度估计方法。首先，以MobileNetV2为主干，提取出4个尺度的特征。然后，通过构建编码器到解码器的跳跃连接路径，将4个尺度的特征进行融合，充分利用融合低层的位置信息和高层的语义信息。最后，融合后的特征通过卷积层得出高精度的深度图像。在NYU Depth Dataset V2数据集上进行了训练和测试，结果表明，该模型的参数量在仅有1.6×106的情况下，评估指标δ1高达0.812，在移动端的麒麟980 CPU上推理一幅图像仅需要0.094 s，具有实际应用价值。

基于图文关联与上下文引导的军事新闻图集描述生成方法

梅运红, 刘茂福,

2024, 46(9): 1625-1634. doi:

摘要 ( 633 )

PDF (1839KB) ( 971 ) 　　

传统的图像描述生成方法由于缺少现实世界的先验知识，生成的描述文本不具有解释性，同时在某些专业领域生成的描述文本准确性不高。针对上述问题，提出了军事新闻图集描述生成任务，还构建了军事新闻图集数据集。该任务存在2个关键挑战：描述信息来源于整个图集和对应的新闻文本中，模型学习到的语义不够充分。进一步提出了一种基于图文关联与上下文引导的军事新闻图集描述生成方法ITRCG。基于ITRCG实现跨模态信息交互，引导模型学习更完整的语义，并通过标签清理辅助命名实体生成。在构建的军事新闻图集数据集上进行了验证实验，结果表明ITRCG能够有效提高描述文本的质量，在各项评价指标上均取得了提升。

基于多种策略改进的鲸鱼优化算法

戴春雨, 马廉洁, 蒋涵存, 李红双

2024, 46(9): 1635-1647. doi:

摘要 ( 797 )

PDF (1433KB) ( 646 ) 　　

针对标准鲸鱼优化算法收敛速度慢、搜索与开发不平衡、种群之间信息交流匮乏、容易陷入局部最优的问题，提出了一种改进算法。首先，采用Tent混沌映射提高初始种群的分布均匀性，并引入非线性收敛因子，提升算法前期的全局搜索和中后期局部开发的能力，协调了搜索与开发的转换机制。然后，将种群的平均位置向量引入随机搜索过程中，有效改善个体与种群之间缺乏信息交流的问题。接着，将自适应惯性权重引入位置更新公式中，以加快算法的收敛速度，提高求解精度。最后，利用柯西算子对陷入局部最优的个体进行变异扰动。通过15个基准测试函数对改进算法进行仿真实验，实验结果表明，改进后的鲸鱼优化算法具有良好的性能，并通过Wilcoxon秩和检验证明了改进算法的有效性。

神经网络增强的成对双线性因子分解机

周祺, 周宁宁

2024, 46(9): 1648-1659. doi:

摘要 ( 532 )

PDF (1794KB) ( 881 ) 　　

基于神经网络增强的因子分解机模型因可以捕捉更多高阶特征的交互，使预测结果愈加精准而成为了当前推荐算法的研究热点。针对现有模型在对用户与物品交互特征进行建模时，并没有综合考虑高阶交互特征和原始低阶特征的问题，同时为了提高模型对用户偏好的建模能力，采用深度神经网络，并且结合成对学习提出了新的深度神经网络增强的成对双线性因子分解机模型DeepPRBFM。该模型采用一对分别包含正样本和负样本输入的双线性结构，利用多层ResNet保留低阶特征，利用DNN增强高阶特征的交互，并采用了基于Pairwise Ranking的损失函数。此外，双线性结构中，通过增加负样本的比例，不仅能大大减缓推荐系统的冷启动问题，而且还能提升模型的预测效果。在2个真实数据集上的实验结果表明，所提出的模型获得了更高的推荐准确率，在HR和NDCG等客观指标上都优于其他对比模型。

改进遗传算法与多目标优化模型的航班路径规划

安园园, 马晓宁

2024, 46(9): 1660-1666. doi:

摘要 ( 1280 )

PDF (608KB) ( 806 ) 　　

针对现有航线路径规划模型，单一成本规划难以解决不同机型及运输时间条件下最优路径规划的问题，将机型配置、运输时间和系统成本相结合，通过枢纽城市位置、非枢纽城市节点向枢纽城市节点的流量分配、机队飞行时间以及机队规模建立枢纽航线网络优化模型。以飞行时间与系统总成本为最小化求解目标，利用熵值法建立染色体选择机制，引入自适应交叉率改进遗传算法，通过改进算法（IGA）对最佳航线及枢纽节点位置分布优化求解，并与传统遗传算法、人工蜂群算法和灰狼算法进行对比。研究表明，将不同机型配置、运输时间进行组合，优于单一成本路径规划。以改进算法对枢纽航线网络模型进行优化求解，系统总成本降低了3.41×1010，为机队资源的合理配置提供了借鉴。

一种基于超图的多模态多标签分类方法

陆斌, 范强, 周晓磊, 严浩, 王芳潇,

2024, 46(9): 1667-1674. doi:

摘要 ( 829 )

PDF (1031KB) ( 1142 ) 　　

标签分类旨在从若干标签中选取最相关的标签子集来标注一个实例，现已成为人工智能领域的热点问题。传统的多标签学习方法主要针对单一模态数据进行识别，针对多模态数据之间的高阶关联挖掘研究较少。为解决多标签场景下多模态数据之间高阶关联表示不充分的问题，提出了一种基于超图的多模态多标签分类方法。引入超图模型对多模态数据的高阶关联进行建模，利用多模态特征融合和超边卷积操作，实现多模态数据关系挖掘和特征识别，提高了多模态多标签分类的性能。采用电影体裁分类任务进行实验，并与传统方法进行了比较。实验结果表明，所提出的方法在准确率、精度、F1值上优于对比方法，证明了该方法的有效性。

基于元学习的图神经网络冷启动推荐

吴斯琦, 赵清华, 于雨晨

2024, 46(9): 1675-1684. doi:

摘要 ( 1785 )

PDF (1751KB) ( 1205 ) 　　

为解决推荐过程中冷启动问题对新用户或新项目场景性能的限制，提出了一种基于元学习的图神经网络冷启动推荐模型MetaNGCF，以提高推荐的准确性和多样性。首先，提出具有自适应的感知元学习结构来构建用户与项目交互图和神经图混合的模型，将用户行为与项目知识统一表达，融合自适应加权损失策略来实时校正元学习路径，以避免噪声任务对模型造成的损害；其次，运用聚类算法将高维特征空间转化为低维低秩特征空间，并利用用户偏好学习任务聚合层梯度对协作信号进行编码，自动归纳出用户与项目之间的高阶连通性，进而捕捉NGCF通用知识语义；最后，与现有的MetaHIN算法进行对比验证，实验结果表明MetaNGCF在Recall@20和NDCG@20上具有更佳的性能。

基于双重自表达与最大熵原理的深度子空间聚类算法

李猛, 刘姿邑, 宋宇航

2024, 46(9): 1685-1692. doi:

摘要 ( 1186 )

PDF (843KB) ( 774 ) 　　

深度子空间聚类算法使用深度神经网络将原始输入数据映射至潜在空间，并利用数据的自表达性作为数据相似程度的度量，从而实现对高维数据的有效聚类。然而，这类算法仅关注潜在空间中的自表达关系，导致其性能严重依赖于深度神经网络所提取特征的质量。此外，正则化过程忽略各空间内的连通性，影响谱聚类算法的性能。针对这些问题，提出了基于双重自表达与最大熵原理的深度子空间聚类算法。该算法同时学习潜在空间与输入空间的自表达关系，以引导深度神经网络获得适合于子空间聚类的数据表示。通过最大化相似度矩阵的熵，确保同一子空间的元素分布均匀且密集，从而提升数据聚类性能。在5个数据集上进行大量实验，验证了所提算法的有效性。

基于用户轨迹和好友关系的兴趣点推荐

刘国岐, 何廷年, 荣艺煊, 李卓然

2024, 46(9): 1693-1701. doi:

摘要 ( 949 )

PDF (1040KB) ( 738 ) 　　

连续兴趣点(POI)推荐是基于地理位置社交网络(LBSN)的重要应用之一，已有研究提出采用兴趣点信息和时空信息进行推荐的方法，但没有充分地利用相关辅助信息,因此无法解决用户短轨迹签到导致的信息不足问题。针对这些问题，提出一种整合好友关系和自注意力的兴趣点推荐模型ATFR。该预测模型包含3个部分：首先,通过图嵌入的方法得到好友关系的向量表示并利用GRU得到用户兴趣偏好向量;其次,利用自注意力机制对用户签到序列的顺序影响和社交影响建模，有选择地关注签入序列中相关的历史签入记录;最后,根据兴趣点排序列表进行未来兴趣点推荐。在2个真实数据集上的实验结果表明ATFR模型有更好的表现，可以用来提高网站应用和个性化兴趣点推荐服务的质量。

一种基于关联程度的高效用数量比频繁模式挖掘算法

王辉, 李燕, 丁丁, 吴坤, 黄雅平,

2024, 46(9): 1702-1710. doi:

摘要 ( 549 )

PDF (811KB) ( 608 ) 　　

高效用频繁模式挖掘算法运用数据项的重要度信息，能够从数据中挖掘出更重要的频繁模式，而高效用数量比频繁模式挖掘算法可以进一步研究频繁模式中数据项的数量比例关系，是目前数据挖掘领域中的研究课题。从提高算法性能和实用性的角度出发对高效用数量比频繁模式挖掘算法进行优化，提出了一种基于关联程度的高效用数量比频繁模式挖掘算法RHUQI-Miner。RHUQI-Miner首先提出关联程度的概念，依据关联程度构建项目关联程度结构，并给出关联剪枝优化策略，寻找关联程度更高的项目集合，减少冗余和无效的频繁模式；随后运用修正模式长度策略，修正挖掘过程中项集的效用信息，使算法可根据实际数据情况控制输出频繁模式的长度，进一步提升算法的性能，提高算法的实用性。通过对RHUQI-Miner在动车组PHM系统车载故障数据集上的实验结果进行分析，表明该算法能够有效减少挖掘过程中的时间以及内存消耗，可以得出该算法适用于铁路实际数据和业务的有效结论。

当期目录

作者中心

审稿中心

在线期刊