• 中国计算机学会会刊
  • 中国科技核心期刊
  • 中文核心期刊

J4 ›› 2001, Vol. 23 ›› Issue (2): 66-69.

• 论文 • 上一篇    下一篇

平均奖赏MDP的在策略无模型激励学习算法

陈焕文[1] 谢丽娟[2]   

  • 出版日期:2001-02-01 发布日期:2010-06-08

  • Online:2001-02-01 Published:2010-06-08

摘要:

本文以随机逼近的形式,提出了一些用于求解平均奖赏Markov决策过程系统方程的在策略无模型激励学习算法,这些算法与广泛且成功应用于折扣奖赏MDP的SARSA(λ)类算法相似,为比较这些新算法的性能,本文还给出了一些初步的实验结果。

关键词: 激励学习 Markov决策过程 平均奖赏 折扣奖赏 人工智能