强化学习中基于定性模型的知识传递方法

J4 ›› 2011, Vol. 33 ›› Issue (6): 118-124.

强化学习中基于定性模型的知识传递方法

黄晗文1，2，郑宇3

（1.湖南大学计算机与通信学院，湖南长沙 410086；2.湖南工业职业技术学院信息工程系，湖南长沙 410208；
3.北京交通大学计算机与信息技术学院，北京 100044）

收稿日期:2010-03-16 修回日期:2010-08-02 出版日期:2011-06-25 发布日期:2011-06-25
作者简介:黄晗文(1976),男,湖南长沙人，硕士，讲师，研究方向为人工智能、网络应用与信息安全。
基金资助:
省教育厅科学研究项目（09C1134）

HUANG Hanwen1，2，ZHENG Yu3

（1.School of Computer and Communications,Hunan University,Changsha 410086;
2.Department of Information Engineering,Hunan Industry Polytechnic,Changsha 410208;
3.School of Computer and Information Technology,Beijing Jiaotong University,Beijing 100044,China）

Received:2010-03-16 Revised:2010-08-02 Online:2011-06-25 Published:2011-06-25

摘要/Abstract

摘要：

本文提出一种基于定性模糊网络的强化学习知识传递方法。该方法通过建立系统的定性模型，并用定性模糊网络抽取基于定性动作的次优策略的共同特征获得与系统参数无关知识。这些知识能有效描述参数值不同的系统所具有的共同控制规律,加快在新参数值的系统中强化学习的收敛速度。

关键词: 强化学习, 定性模型, 知识传递

Abstract:

This paper proposes a new reinforcement learning knowledge transfer method based on a qualitative model. The method defines the qualitative model and extracts the common features of the suboptimal policy to obtain knowledge by qualitative fuzzy networks. The knowledge can represent the common features of the tasks with different parameters. The convergence can be accelerated by the knowledge unrelated to the parameters.

Key words: reinforcement learning;qualitative model;knowledge transfer

黄晗文1，2，郑宇3. 强化学习中基于定性模型的知识传递方法[J]. J4, 2011, 33(6): 118-124.

HUANG Hanwen1，2，ZHENG Yu3. [J]. J4, 2011, 33(6): 118-124.

编辑推荐

Metrics

阅读次数

全文

145

HTML			PDF

最新录用	在线预览	正式出版	最新录用	在线预览	正式出版
0	0	0	0	0	145

来源	本网站	其他网站

次数	109	36
比例	75%	25%

摘要

101

最新录用	在线预览	正式出版

0	0	101

	来源	本网站

	次数	101
	比例	100%

[1]	章政, 夏小云, 陈泽丰, 向毅. 融合强化学习的分阶段策略求解旅行背包问题[J]. 计算机工程与科学, 2025, 47(01): 140-149.
[2]	余世瑞, 姜春茂. 基于模糊强化学习的云计算虚拟机调度策略[J]. 计算机工程与科学, 2025, 47(01): 56-65.
[3]	段成龙, 袁杰, 常乾坤, 张宁宁. 基于D2GA的逆强化学习算法[J]. 计算机工程与科学, 2024, 46(11): 2053-2062.
[4]	顾颖程, 魏柳, 姜宁, 程环宇, 刘凯, 宋玉, 刘梅招, 汤雷, 陈彧, 张胜. 边缘场景下面向分布式交互应用的服务器分配[J]. 计算机工程与科学, 2024, 46(10): 1748-1756.
[5]	蔡玉, 官铮, 王增文, 王学, 杨志军. 基于多智能体深度强化学习的车联网区分业务资源分配算法[J]. 计算机工程与科学, 2024, 46(10): 1757-1764.
[6]	庄述鑫, 陈永红, 郝一行, 吴巍炜, 徐学永, 王万元. 对抗环境中基于种群多样性的鲁棒策略生成方法[J]. 计算机工程与科学, 2024, 46(06): 1081-1091.
[7]	曾凡锋, 王春真, 李琛. 基于深浅层特征融合的无监督视频摘要算法研究[J]. 计算机工程与科学, 2023, 45(09): 1602-1610.
[8]	王扬, 陈智斌. 一种求解CVRP的动态图转换模型[J]. 计算机工程与科学, 2023, 45(05): 859-868.
[9]	彭坤彦, 尹翔, 刘笑竹, 李恒宇. 基于粒子群优化和深度强化学习的策略搜索方法[J]. 计算机工程与科学, 2023, 45(04): 718-725.
[10]	童钊, 叶锋, 刘碧篮, 邓小妹, 梅晶, 刘宏. 移动边缘计算中多约束下的任务卸载和资源分配算法[J]. 计算机工程与科学, 2020, 42(10高性能专刊): 1869-1879.
[11]	蔡钺, 游进国, 丁家满. 基于近端策略优化与对抗学习的对话生成[J]. 计算机工程与科学, 2020, 42(09): 1680-1689.
[12]	官蕊, 丁家满, 贾连印, 游进国, 姜瑛, . 基于强化学习的多样性文档排序算法[J]. 计算机工程与科学, 2020, 42(09): 1697-1703.
[13]	韩虎, 孙天岳, 赵启涛. 引入自编码机制对抗网络的文本生成模型[J]. 计算机工程与科学, 2020, 42(09): 1704-1710.
[14]	周碧莹1，王爱平1，费长江2，虞万荣2，赵宝康2. 基于强化学习的卫星网络资源调度机制[J]. 计算机工程与科学, 2019, 41(12): 2134-2142.
[15]	万谦1,2，刘玮1,2，徐龙龙1,2，郭竞知1,2. 基于Q-learning的不确定环境BDI Agent最优策略规划研究[J]. 计算机工程与科学, 2019, 41(01): 166-172.