激励学习的最优判据研究

中国计算机学会会刊
中国科技核心期刊
中文核心期刊

J4 ›› 2001, Vol. 23 ›› Issue (2): 62-65.

• 论文 • 上一篇下一篇

激励学习的最优判据研究

陈焕文[1] 谢建平[2]

出版日期:2001-02-01 发布日期:2010-06-08

Online:2001-02-01 Published:2010-06-08

摘要/Abstract

摘要：

激励学习智能体通过最优策略的学习与规划来求解序贯决策问题，因此如何定义策略的最优判所是激励学习研究的核心问题之一，本文讨论了一系列来自动态规划的最优判据，通过实例检验了各种判据对激励学习的适用性和优缺点，分析了设计各种判据的激励学习算法的必要性。

陈焕文[1] 谢建平[2]. 激励学习的最优判据研究[J]. J4, 2001, 23(2): 62-65.

相关文章 0

编辑推荐

Metrics

本文评价