对抗环境中基于种群多样性的鲁棒策略生成方法

计算机工程与科学 ›› 2024, Vol. 46 ›› Issue (06): 1081-1091.

对抗环境中基于种群多样性的鲁棒策略生成方法

庄述鑫1,陈永红2,郝一行2,吴巍炜1,徐学永3,王万元1

(1.东南大学计算机科学与工程学院,江苏南京 211189；
2.沈阳飞机设计研究所扬州协同创新研究院有限公司,江苏扬州 210016；
3.北方信息控制研究院集团有限公司,江苏南京 211189)

收稿日期:2023-10-12 修回日期:2023-12-05 接受日期:2024-06-25 出版日期:2024-06-25 发布日期:2024-06-18

A population diversity-based robust policy generation method in adversarial game environments#br#

ZHUANG Shu-xin1,CHEN Yong-hong2,HAO Yi-hang2,WU Wei-wei1,XU Xue-yong3,WANG Wan-yuan1#br#

(1.School of Computer Science and Engineering,Southeast University,Nanjing 211189;
2.Shenyang Aeroengine Design and Research Institute,
Yangzhou Collaborative Innovation Research Institute Co.,Ltd.,Yangzhou 210016;
3.Nanjing North Information Industrialization Group Co.,Ltd.,Nanjing 211189,China)

Received:2023-10-12 Revised:2023-12-05 Accepted:2024-06-25 Online:2024-06-25 Published:2024-06-18

摘要/Abstract

摘要：

在对抗博弈环境中,目标智能体希望生成具有高鲁棒性的博弈策略，使得目标智能体在面对不同对手策略时，始终具有较高的收益。现有的基于自我博弈的策略生成方法通常会过拟合到针对对手某个特定策略进行学习，所学习到的策略鲁棒性低且容易受到其他对手策略的攻击。此外，现有的结合深度强化学习和博弈论方法迭代生成对手策略的方法在复杂且具有庞大决策空间的对抗场景下收敛效率低。鉴于此，提出一种基于种群多样性的鲁棒策略生成方法，其中对抗双方各自维护一个种群策略池，并且需要保证种群中的策略是具有多样性的，以此生成鲁棒的目标策略。为了保证种群多样性，将从策略的行为和质量2个视角度量策略的多样性，其中行为多样性是指不同策略状态-动作轨迹的差异性，质量多样性是指不同策略面对相同对手时最终获得的收益的差异性。最后，在典型的具有连续状态、连续动作的对抗环境中验证了所提出的基于种群多样性所生成的策略的鲁棒性。

关键词: 对抗环境, 深度强化学习, 种群多样性, Shapley value, 行为表征

Abstract: In adversarial game environments, the objective agent aims to generate robust game policies, ensuring high returns when facing different opponent policies consistently. Existing self-play-based policy generation methods often overfit to learning against a specific opponent policy, resulting in low robustness and vulnerability to attacks from other opponent policies. Additionally, existing methods that combine deep rein-forcement learning and game theory to iteratively generate opponent policies have low convergence efficiency in complex adversarial scenarios with large decision spaces. To address these challenges, a population diversity-based robust policy generation method is proposed. In this method, both adversaries maintain a policy population pool, ensuring diversity within the population to generate a robust target policy. To ensure population diversity, policy diversity is measured from two perspectives: behavioral and quality diversity. Behavioral diversity refers to the differences in state-action trajectories of different policies, while quality diversity refers to the differences in the returns obtained when facing the same opponent. Finally, the robustness of the policies generated based on population diversity is validated in typical adversarial environments with continuous stateaction spaces.

Key words:

adversarial environment, deep reinforcement learning, population diversity, Shapley- Value, behavior representation

庄述鑫, 陈永红, 郝一行, 吴巍炜, 徐学永, 王万元. 对抗环境中基于种群多样性的鲁棒策略生成方法[J]. 计算机工程与科学, 2024, 46(06): 1081-1091.

ZHUANG Shu-xin, CHEN Yong-hong, HAO Yi-hang, WU Wei-wei, XU Xue-yong, WANG Wan-yuan. A population diversity-based robust policy generation method in adversarial game environments#br#[J]. Computer Engineering & Science, 2024, 46(06): 1081-1091.

编辑推荐

Metrics

阅读次数

全文

441

HTML			PDF

最新录用	在线预览	正式出版	最新录用	在线预览	正式出版
0	0	0	0	0	441

来源	本网站	其他网站

次数	348	93
比例	79%	21%

摘要

201

最新录用	在线预览	正式出版

0	0	201

	来源	本网站

	次数	201
	比例	100%

[1]	段成龙, 袁杰, 常乾坤, 张宁宁. 基于D2GA的逆强化学习算法[J]. 计算机工程与科学, 2024, 46(11): 2053-2062.
[2]	王扬, 陈智斌. 一种求解CVRP的动态图转换模型[J]. 计算机工程与科学, 2023, 45(05): 859-868.
[3]	彭坤彦, 尹翔, 刘笑竹, 李恒宇. 基于粒子群优化和深度强化学习的策略搜索方法[J]. 计算机工程与科学, 2023, 45(04): 718-725.
[4]	童钊, 叶锋, 刘碧篮, 邓小妹, 梅晶, 刘宏. 移动边缘计算中多约束下的任务卸载和资源分配算法[J]. 计算机工程与科学, 2020, 42(10高性能专刊): 1869-1879.
[5]	赵红1,2,李滢1,2,肖文洁1,2. 实数与二进制编码GA种群多样性统一数学模型[J]. J4, 2016, 38(06): 1177-1182.
[6]	敖友云[1] 李枫[2]. 一种维持种群多样性的多目标差分演化算法[J]. J4, 2008, 30(12): 75-78.