• 中国计算机学会会刊
  • 中国科技核心期刊
  • 中文核心期刊
平均奖赏MDP的在策略无模型激励学习算法
陈焕文[1] 谢丽娟[2]
计算机工程与科学 . 2001, (2): 66 -69 .