基于Q-learning的不确定环境BDI Agent最优策略规划研究

计算机工程与科学

基于Q-learning的不确定环境BDI Agent最优策略规划研究

万谦1,2，刘玮1,2，徐龙龙1,2，郭竞知1,2

（1.武汉工程大学计算机科学与工程学院,湖北武汉 430073;

2.智能机器人湖北省重点实验室,湖北武汉 430073）

收稿日期:2018-06-05 修回日期:2018-08-13 出版日期:2019-01-25 发布日期:2019-01-25
基金资助:
国家自然科学基金（61502355）；武汉工程大学第九届研究生教育创新基金(CX2017068)

Optimal strategy planning of BDI agent based on

Q-learning in uncertain environments

WAN Qian1,2,LIU Wei1,2,XU Longlong1,2,GUO Jingzhi1,2

（1.School of Computer Science and Engineering,Wuhan Institute of Technology,Wuhan 430073;

2.Hubei Provincial Key Laboratory of Intelligent Robot,Wuhan 430073,China）

Received:2018-06-05 Revised:2018-08-13 Online:2019-01-25 Published:2019-01-25

摘要/Abstract

摘要：

BDI模型能够很好地解决在特定环境下的Agent的推理和决策问题，但在动态和不确定环境下缺少决策和学习的能力。强化学习解决了Agent在未知环境下的决策问题，却缺少BDI模型中的规则描述和逻辑推理。针对BDI在未知和动态环境下的策略规划问题，提出基于强化学习Q-learning算法来实现BDI Agent学习和规划的方法，并针对BDI的实现模型ASL的决策机制做出了改进，最后在ASL的仿真平台Jason上建立了迷宫的仿真，仿真实验表明，在加入Qlearning学习机制后的新的ASL系统中，Agent在不确定环境下依然可以完成任务。

关键词: BDI Agent, 强化学习, Q-learning, ASL, Jason, 规划

Abstract:

The belief-desire-intention (BDI) model can solve the problem of reasoning and decision-making of agents in a particular environment, but lacks the ability of decision-making and learning in dynamic and uncertain environments. Reinforcement learning solves the decision-making problem of agent in unknown environments, but lacks the rule description and logical reasoning of the BDI model. Aiming at the strategic planning problem of the BDI in the unknown and dynamic environment, we propose an optimal strategy planning method based on Q-learning algorithm of reinforcement learning. And we make improvement for the decision-making mechanism on the implementation model of the BDI—agent speak language (ASL). Finally, the simulation of the maze on the ASL simulation platform Jason proves the feasibility of this method, and the new agent model can fulfill tasks in uncertain environments.

Key words: BDI agent, reinforcement learning, Q-learning, ASL, Jason, planning

万谦1,2，刘玮1,2，徐龙龙1,2，郭竞知1,2. 基于Q-learning的不确定环境BDI Agent最优策略规划研究[J]. 计算机工程与科学.

WAN Qian1,2,LIU Wei1,2,XU Longlong1,2,GUO Jingzhi1,2.

Optimal strategy planning of BDI agent based on

Q-learning in uncertain environments

[J]. Computer Engineering & Science.

[1]	陈俊彦1, 李欣梅1, 朱昌洪2, 肖微3. 基于多视图图注意力机制的软件定义光传输网络路由优化算法[J]. 计算机工程与科学, 2025, 47(7): 1193-1204.
[2]	李天云, 李韬, 温冬, 杨惠, 张毓涛, 罗欣, 董德尊. 基于人工智能方法的网络拥塞控制综述[J]. 计算机工程与科学, 2025, 47(6): 1018-1027.
[3]	邸剑, 万雪, 姜丽梅, . 基于随机对称搜索的进化强化学习算法[J]. 计算机工程与科学, 2025, 47(5): 912-920.
[4]	魏东, 贾宇辰, 韩少然. 数据中心制冷系统强化学习控制[J]. 计算机工程与科学, 2025, 47(3): 422-433.
[5]	章政, 夏小云, 陈泽丰, 向毅. 融合强化学习的分阶段策略求解旅行背包问题[J]. 计算机工程与科学, 2025, 47(1): 140-149.
[6]	余世瑞, 姜春茂. 基于模糊强化学习的云计算虚拟机调度策略[J]. 计算机工程与科学, 2025, 47(1): 56-65.
[7]	安园园, 马晓宁. 改进遗传算法与多目标优化模型的航班路径规划[J]. 计算机工程与科学, 2024, 46(9): 1660-1666.
[8]	吕倩茹, 杨翔瑞, 蔡志平. 基于影响力地图的计算机兵棋推演路径规划[J]. 计算机工程与科学, 2024, 46(6): 1041-1049.
[9]	庄述鑫, 陈永红, 郝一行, 吴巍炜, 徐学永, 王万元. 对抗环境中基于种群多样性的鲁棒策略生成方法[J]. 计算机工程与科学, 2024, 46(6): 1081-1091.
[10]	段成龙, 袁杰, 常乾坤, 张宁宁. 基于D2GA的逆强化学习算法[J]. 计算机工程与科学, 2024, 46(11): 2053-2062.
[11]	顾颖程, 魏柳, 姜宁, 程环宇, 刘凯, 宋玉, 刘梅招, 汤雷, 陈彧, 张胜. 边缘场景下面向分布式交互应用的服务器分配[J]. 计算机工程与科学, 2024, 46(10): 1748-1756.
[12]	蔡玉, 官铮, 王增文, 王学, 杨志军. 基于多智能体深度强化学习的车联网区分业务资源分配算法[J]. 计算机工程与科学, 2024, 46(10): 1757-1764.
[13]	乔珍, 尹传忠, 仇鑫. 基于改进蚁群算法的长航程无人船路径规划[J]. 计算机工程与科学, 2024, 46(10): 1835-1842.
[14]	沈克宇, 游志宇, 刘永鑫. 基于拟合优先搜索的多场景自适应改进A*算法[J]. 计算机工程与科学, 2024, 46(1): 142-149.
[15]	曾凡锋, 王春真, 李琛. 基于深浅层特征融合的无监督视频摘要算法研究[J]. 计算机工程与科学, 2023, 45(9): 1602-1610.