摘要: 随着深度神经网络的不断发展,强化学习与其结合形成了深度强化学习方法,显著提升了在高维复杂环境中处理决策问题的能力。然而,当前的深度强化学习算法仍面临样本效率低下的问题,导致智能体需要大量交互数据才能学习到有效策略。我们通过实验分析了样本效率低下的深层原因,并以此提出了一种混合缩放平滑正则化层,该方法直接作用于卷积编码器产生的特征表示。通过随机混合同一特征图的不同局部区域生成新的特征表示,该方法在潜在空间中引入了多尺度变化,从而在训练初期有效避免过拟合问题,进而提升样本效率。在多个仿真环境下的实验结果表明,我们的方法与现有先进方法的对比中表现出了优越性,样本效率有着18.13%的提升。该方法具有实现简单、通用性强等优点,为提升深度强化学习的样本效率提供了一条新的途径。