摘要: 离线强化学习旨在让智能体利用历史数据进行策略学习,不进行在线交互,从而降低成本并规避现实场景中的风险。然而,由于缺少环境反馈,从离线数据集中学习到的策略会遇到数据分布偏移的问题。现有的方法大多基于保守主义,通过将策略学习的范围限制在离线数据集分布内,一定程度上缓解了分布偏移问题,但同时也限制了智能体的探索能力。针对以上问题,提出了一种基于引导性探索的方法。该方法利用引导性状态网络生成高潜在价值的邻近状态,引导智能体探索分布外状态。同时,引入行为克隆项以动态调整行为策略与学习策略之间的差距,确保学习过程的稳定性。在D4RL基准测试集上的实验结果表明,该算法在多个任务上的表现优于现有主流算法。