一种基于强化学习的PE恶意软件对抗样本生成方法

doi:10.3969/j.issn.1007-130X.2026.04.006

计算机工程与科学 ›› 2026, Vol. 48 ›› Issue (4): 617-627.doi: 10.3969/j.issn.1007-130X.2026.04.006

• 计算机网络与信息安全 • 上一篇下一篇

一种基于强化学习的PE恶意软件对抗样本生成方法

张朝然，马玉骐，张三峰，杨望

（1.东南大学网络空间安全学院，江苏南京 211189;
2.教育部计算机网络和信息集成重点实验室(东南大学)，江苏南京 211189）

收稿日期:2024-02-27 修回日期:2024-09-24 出版日期:2026-04-25 发布日期:2026-04-29
基金资助:
国家重点研发计划（2022YFB3104601）

A reinforcement learning-based method for generating adversarial examples against PE malware

ZHANG Chaoran,MA Yuqi,ZHANG Sanfeng,YANG Wang

(1.School of Cyber Science and Engineering,Southeast University,Nanjing 211189;
2.Key Laboratory of Computer Network and Information Integration (Southeast University),
Ministry of Education,Nanjing 211189,China)

Received:2024-02-27 Revised:2024-09-24 Online:2026-04-25 Published:2026-04-29
Supported by:

摘要/Abstract

摘要： 提出一种基于强化学习的PE恶意软件对抗样本生成方法。将PE恶意软件对抗样本生成视为序列到序列的生成任务，并对离线强化学习数据集进行序列建模，利用Transformer强大的序列生成能力，通过每次预测一个动作来逐步生成序列。此外，引入信息传输机制来实现强化学习过程中跨回合信息传输，提高数据效率。实验表明，基于所提出方法生成的PE恶意软件对抗样本的逃逸率优于对比实验，并具有可转移性。

关键词: 强化学习, 对抗样本, PE恶意软件, 恶意软件检测

Abstract: This paper proposes a reinforcement learning-based method for generating adversarial examples against PE malware. Firstly, it regards the generation of adversarial examples for PE malware as a sequence-to-sequence generation task, which models sequences on an offline reinforcement learning dataset and leverages the powerful sequence generation capability of Transformer by incrementally generating sequences through predicting actions at each step. Furthermore, an information transmission mechanism is introduced to facilitate cross-episode information transfer during the reinforcement learning process, enhancing data efficiency. Experimental results demonstrate that the evasion rate of PE malware adversarial examples generated using this method outperforms those in comparative experiments and exhibits transferability.

Key words: reinforcement learning, adversarial example, PE malware, malware detection

张朝然, 马玉骐, 张三峰, 杨望. 一种基于强化学习的PE恶意软件对抗样本生成方法[J]. 计算机工程与科学, 2026, 48(4): 617-627.

ZHANG Chaoran, MA Yuqi, ZHANG Sanfeng, YANG Wang. A reinforcement learning-based method for generating adversarial examples against PE malware[J]. Computer Engineering & Science, 2026, 48(4): 617-627.

[1]	张新君, 郭继发. 基于SCViT的图像重构对抗样本防御方法[J]. 计算机工程与科学, 2026, 48(3): 500-511.
[2]	张文柱, 石亚坤, 高杜梅. 边云协同下的计算卸载与资源分配策略[J]. 计算机工程与科学, 2026, 48(3): 398-410.
[3]	韩政, 徐茹枝, 刘晓华. 一种基于强化学习的多跳知识图谱推理方法研究[J]. 计算机工程与科学, 2026, 48(2): 256-267.
[4]	陈子阳, 陈钧, 朱予涵, 刘耿耿, 黄兴. 面向安全可编程阀门阵列生物芯片的基于深度强化学习的组件布局算法#br#[J]. 计算机工程与科学, 2026, 48(1): 40-50.
[5]	陈俊彦1, 李欣梅1, 朱昌洪2, 肖微3. 基于多视图图注意力机制的软件定义光传输网络路由优化算法[J]. 计算机工程与科学, 2025, 47(7): 1193-1204.
[6]	李天云, 李韬, 温冬, 杨惠, 张毓涛, 罗欣, 董德尊. 基于人工智能方法的网络拥塞控制综述[J]. 计算机工程与科学, 2025, 47(6): 1018-1027.
[7]	邸剑, 万雪, 姜丽梅, . 基于随机对称搜索的进化强化学习算法[J]. 计算机工程与科学, 2025, 47(5): 912-920.
[8]	魏东, 贾宇辰, 韩少然. 数据中心制冷系统强化学习控制[J]. 计算机工程与科学, 2025, 47(3): 422-433.
[9]	李佳坤, 谢雨来, 冯丹. 云边协同框架下视频处理任务实时调度算法[J]. 计算机工程与科学, 2025, 47(10): 1767-1778.
[10]	余世瑞, 姜春茂. 基于模糊强化学习的云计算虚拟机调度策略[J]. 计算机工程与科学, 2025, 47(1): 56-65.
[11]	章政, 夏小云, 陈泽丰, 向毅. 融合强化学习的分阶段策略求解旅行背包问题[J]. 计算机工程与科学, 2025, 47(1): 140-149.
[12]	刘强, 李沐春, 伍晓洁, 王煜恒. S-JSMA：一种低扰动冗余的快速JSMA对抗样本生成方法[J]. 计算机工程与科学, 2024, 46(8): 1395-1402.
[13]	庄述鑫, 陈永红, 郝一行, 吴巍炜, 徐学永, 王万元. 对抗环境中基于种群多样性的鲁棒策略生成方法[J]. 计算机工程与科学, 2024, 46(6): 1081-1091.
[14]	段成龙, 袁杰, 常乾坤, 张宁宁. 基于D2GA的逆强化学习算法[J]. 计算机工程与科学, 2024, 46(11): 2053-2062.
[15]	蔡玉, 官铮, 王增文, 王学, 杨志军. 基于多智能体深度强化学习的车联网区分业务资源分配算法[J]. 计算机工程与科学, 2024, 46(10): 1757-1764.

一种基于强化学习的PE恶意软件对抗样本生成方法

A reinforcement learning-based method for generating adversarial examples against PE malware

PDF

可视化

摘要/Abstract

引用本文

使用本文

相关文章 15

编辑推荐

Metrics

本文评价