J4 ›› 2001, Vol. 23 ›› Issue (2): 62-65.
• 论文 • 上一篇 下一篇
陈焕文[1] 谢建平[2]
出版日期:
发布日期:
Online:
Published:
摘要:
激励学习智能体通过最优策略的学习与规划来求解序贯决策问题,因此如何定义策略的最优判所是激励学习研究的核心问题之一,本文讨论了一系列来自动态规划的最优判据,通过实例检验了各种判据对激励学习的适用性和优缺点,分析了设计各种判据的激励学习算法的必要性。
关键词: 激励学习 智能体 最优判据 学习算法 人工智能
陈焕文[1] 谢建平[2]. 激励学习的最优判据研究[J]. J4, 2001, 23(2): 62-65.
0 / / 推荐
导出引用管理器 EndNote|Ris|BibTeX
链接本文: http://joces.nudt.edu.cn/CN/
http://joces.nudt.edu.cn/CN/Y2001/V23/I2/62