摘要:
在对抗博弈环境中,目标智能体希望生成具有高鲁棒性的博弈策略,使得目标智能体在面对不同对手策略时,始终具有较高的收益。现有的基于自我博弈的策略生成方法通常会过拟合到针对对手某个特定策略进行学习,所学习到的策略鲁棒性低且容易受到其他对手策略的攻击。此外,现有的结合深度强化学习和博弈论方法迭代生成对手策略的方法在复杂且具有庞大决策空间的对抗场景下收敛效率低。鉴于此,提出一种基于种群多样性的鲁棒策略生成方法,其中对抗双方各自维护一个种群策略池,并且需要保证种群中的策略是具有多样性的,以此生成鲁棒的目标策略。为了保证种群多样性,将从策略的行为和质量2个视角度量策略的多样性,其中行为多样性是指不同策略状态-动作轨迹的差异性,质量多样性是指不同策略面对相同对手时最终获得的收益的差异性。最后,在典型的具有连续状态、连续动作的对抗环境中验证了所提出的基于种群多样性所生成的策略的鲁棒性。
庄述鑫, 陈永红, 郝一行, 吴巍炜, 徐学永, 王万元. 对抗环境中基于种群多样性的鲁棒策略生成方法[J]. 计算机工程与科学, 2024, 46(06): 1081-1091.
ZHUANG Shu-xin, CHEN Yong-hong, HAO Yi-hang, WU Wei-wei, XU Xue-yong, WANG Wan-yuan. A population diversity-based robust policy generation method in adversarial game environments#br#[J]. Computer Engineering & Science, 2024, 46(06): 1081-1091.