基于强化学习的自适应中间件在线更新机制研究

J4 ›› 2014, Vol. 36 ›› Issue (08): 1462-1468.

基于强化学习的自适应中间件在线更新机制研究

王建军,刘玉林

(河北经贸大学现代教育技术中心，河北石家庄 050061)

收稿日期:2012-12-10 修回日期:2013-03-07 出版日期:2014-08-25 发布日期:2014-08-25

Online updating of self-adaptive middleware
based on reinforcement learning

WANG Jianjun，LIU Yulin

(Center of Modern Education Technology,Hebei University of Economics and Business,Shijiazhuang 050061,China)

Received:2012-12-10 Revised:2013-03-07 Online:2014-08-25 Published:2014-08-25

摘要/Abstract

摘要：

自适应中间件框架一般根据预先定义的策略、按照监控、分析、决策、执行的流程实现对开放可变系统的闭环控制。但是，传统的自适应框架基于离线的闭环控制，即在提供自适应服务的同时，自身的决策模型不能随实时的环境变化而更新。针对该问题提出一种基于强化学习的自适应中间件的在线更新方案，解决自适应策略的冲突消解、系统实时效用评估问题，并设计一种基于强化学习的自适应策略在线学习更新方法，增强了自适应中间件的智能性、灵活性和应变能力。最后实现了相应的支撑系统OUSAM并在其上验证了该机制的有效性和可行性。

关键词: 自适应中间件, 在线更新, 智能决策, 强化学习

Abstract:

One common approach of selfadaptive middleware is to incorporate a control loop that monitors, analyzes, decides and executes over a target system with predefined strategies. Such approach is an offline adaptation where strategies or adaptive models are statically determined so as not to change with environment. Aiming at the problem, an online updating mechanism of selfadaptive middleware based on reinforcement learning is proposed to solve the problems of conflict resolution and realtime system effectiveness evaluation, and an online updating method of selfadaptive policy based on reinforcement learning is designed, thus enhancing intelligence, flexibility and reaction capability. Finally, the corresponding system OUSAM is implemented and the effectiveness and feasibility of the mechanism is validated on OUSAM.

Key words: self-adaptive middleware;online updating;intelligent decision;reinforcement learning

王建军,刘玉林. 基于强化学习的自适应中间件在线更新机制研究[J]. J4, 2014, 36(08): 1462-1468.

WANG Jianjun，LIU Yulin. Online updating of self-adaptive middleware
based on reinforcement learning [J]. J4, 2014, 36(08): 1462-1468.

[1]	段成龙, 袁杰, 常乾坤, 张宁宁. 基于D2GA的逆强化学习算法[J]. 计算机工程与科学, 2024, 46(11): 2053-2062.
[2]	顾颖程, 魏柳, 姜宁, 程环宇, 刘凯, 宋玉, 刘梅招, 汤雷, 陈彧, 张胜. 边缘场景下面向分布式交互应用的服务器分配[J]. 计算机工程与科学, 2024, 46(10): 1748-1756.
[3]	蔡玉, 官铮, 王增文, 王学, 杨志军. 基于多智能体深度强化学习的车联网区分业务资源分配算法[J]. 计算机工程与科学, 2024, 46(10): 1757-1764.
[4]	庄述鑫, 陈永红, 郝一行, 吴巍炜, 徐学永, 王万元. 对抗环境中基于种群多样性的鲁棒策略生成方法[J]. 计算机工程与科学, 2024, 46(06): 1081-1091.
[5]	曾凡锋, 王春真, 李琛. 基于深浅层特征融合的无监督视频摘要算法研究[J]. 计算机工程与科学, 2023, 45(09): 1602-1610.
[6]	王扬, 陈智斌. 一种求解CVRP的动态图转换模型[J]. 计算机工程与科学, 2023, 45(05): 859-868.
[7]	彭坤彦, 尹翔, 刘笑竹, 李恒宇. 基于粒子群优化和深度强化学习的策略搜索方法[J]. 计算机工程与科学, 2023, 45(04): 718-725.
[8]	曾上游, 贾小硕, 李文惠. 基于双线程LSTM在线更新的视频追踪算法[J]. 计算机工程与科学, 2021, 43(03): 480-485.
[9]	童钊, 叶锋, 刘碧篮, 邓小妹, 梅晶, 刘宏. 移动边缘计算中多约束下的任务卸载和资源分配算法[J]. 计算机工程与科学, 2020, 42(10高性能专刊): 1869-1879.
[10]	蔡钺, 游进国, 丁家满. 基于近端策略优化与对抗学习的对话生成[J]. 计算机工程与科学, 2020, 42(09): 1680-1689.
[11]	官蕊, 丁家满, 贾连印, 游进国, 姜瑛, . 基于强化学习的多样性文档排序算法[J]. 计算机工程与科学, 2020, 42(09): 1697-1703.
[12]	韩虎, 孙天岳, 赵启涛. 引入自编码机制对抗网络的文本生成模型[J]. 计算机工程与科学, 2020, 42(09): 1704-1710.
[13]	周碧莹1，王爱平1，费长江2，虞万荣2，赵宝康2. 基于强化学习的卫星网络资源调度机制[J]. 计算机工程与科学, 2019, 41(12): 2134-2142.
[14]	万谦1,2，刘玮1,2，徐龙龙1,2，郭竞知1,2. 基于Q-learning的不确定环境BDI Agent最优策略规划研究[J]. 计算机工程与科学, 2019, 41(01): 166-172.
[15]	宋佳佳，王作为. 基于有效实例的改进U树算法[J]. 计算机工程与科学, 2019, 41(01): 185-190.