J4 ›› 2001, Vol. 23 ›› Issue (2): 66-69.
• 论文 • 上一篇 下一篇
陈焕文[1] 谢丽娟[2]
出版日期:
发布日期:
Online:
Published:
摘要:
本文以随机逼近的形式,提出了一些用于求解平均奖赏Markov决策过程系统方程的在策略无模型激励学习算法,这些算法与广泛且成功应用于折扣奖赏MDP的SARSA(λ)类算法相似,为比较这些新算法的性能,本文还给出了一些初步的实验结果。
关键词: 激励学习 Markov决策过程 平均奖赏 折扣奖赏 人工智能
陈焕文[1] 谢丽娟[2]. 平均奖赏MDP的在策略无模型激励学习算法[J]. J4, 2001, 23(2): 66-69.
0 / / 推荐
导出引用管理器 EndNote|Ris|BibTeX
链接本文: http://joces.nudt.edu.cn/CN/
http://joces.nudt.edu.cn/CN/Y2001/V23/I2/66