平均奖赏MDP的在策略无模型激励学习算法

中国计算机学会会刊
中国科技核心期刊
中文核心期刊

J4 ›› 2001, Vol. 23 ›› Issue (2): 66-69.

• 论文 • 上一篇下一篇

平均奖赏MDP的在策略无模型激励学习算法

陈焕文[1] 谢丽娟[2]

出版日期:2001-02-01 发布日期:2010-06-08

Online:2001-02-01 Published:2010-06-08

摘要/Abstract

摘要：

本文以随机逼近的形式，提出了一些用于求解平均奖赏Markov决策过程系统方程的在策略无模型激励学习算法，这些算法与广泛且成功应用于折扣奖赏MDP的SARSA（λ）类算法相似，为比较这些新算法的性能，本文还给出了一些初步的实验结果。

陈焕文[1] 谢丽娟[2]. 平均奖赏MDP的在策略无模型激励学习算法[J]. J4, 2001, 23(2): 66-69.

相关文章 0

编辑推荐

Metrics

本文评价