基于模糊聚类的分层强化学习算法

doi:10.3969/j.issn.1007130X.2010.

J4 ›› 2010, Vol. 32 ›› Issue (1): 55-56.doi: 10.3969/j.issn.1007130X.2010.

基于模糊聚类的分层强化学习算法

(长沙理工大学计算机与通信工程学院，湖南长沙 410076)

收稿日期:2008-11-19 修回日期:2009-02-25 出版日期:2010-01-18 发布日期:2010-01-18
通讯作者: 410114 湖南省长沙市长沙理工大学（云塘校区）至诚轩3A E-mail:ujn_zhangxin@163.com
作者简介:张欣（1982-），男，山东东营人，硕士生，研究方向为人工智能和强化学习等；戴帅，硕士生，研究方向为机器学习和强化学习等。

A Hierarchical Reinforcement Learning Algorithm Based on Fuzzy Clustering

Received:2008-11-19 Revised:2009-02-25 Online:2010-01-18 Published:2010-01-18

摘要/Abstract

摘要：

本文提出了一种新的分层强化学习Option自动生成算法，以Agent在学习初始阶段探测到的状态空间为输入，采用模糊逻辑神经元的网络进行聚类，在聚类后的各状态子集上通过经验回放学习产生内部策略集，生成Option，仿真实验结果表明了该算法的有效性。

关键词: 强化学习, 分层强化学习, 模糊聚类, Option

Abstract:

A new algorithm for the automatic generation of the Option Hierarchical Reinforcement Learning is presented. The algorithm takes the state space detected by the agent as input in the initial learning phase,and clusters the states by employing fuzzy clustering. Based on the clustered state sets, the intrastrategies are learned by an experience replay procedure. As a result, the options are generated. The validity of the algorithm is demonstrated by simulation experiments.

Key words: reinforcement learning;hierarchical reinforcement learning;fuzzy clustering;Option

中图分类号:

TP181

张欣，戴帅. 基于模糊聚类的分层强化学习算法[J]. J4, 2010, 32(1): 55-56.

ZHANG Xin, DAI Shuai. A Hierarchical Reinforcement Learning Algorithm Based on Fuzzy Clustering[J]. J4, 2010, 32(1): 55-56.

编辑推荐

Metrics

阅读次数

全文

HTML			PDF

最新录用	在线预览	正式出版	最新录用	在线预览	正式出版
0	0	0	0	0	70

来源	本网站	其他网站

次数	54	16
比例	77%	23%

摘要

102

最新录用	在线预览	正式出版

0	0	102

	来源	本网站

	次数	102
	比例	100%

[1]	章政, 夏小云, 陈泽丰, 向毅. 融合强化学习的分阶段策略求解旅行背包问题[J]. 计算机工程与科学, 2025, 47(01): 140-149.
[2]	余世瑞, 姜春茂. 基于模糊强化学习的云计算虚拟机调度策略[J]. 计算机工程与科学, 2025, 47(01): 56-65.
[3]	段成龙, 袁杰, 常乾坤, 张宁宁. 基于D2GA的逆强化学习算法[J]. 计算机工程与科学, 2024, 46(11): 2053-2062.
[4]	顾颖程, 魏柳, 姜宁, 程环宇, 刘凯, 宋玉, 刘梅招, 汤雷, 陈彧, 张胜. 边缘场景下面向分布式交互应用的服务器分配[J]. 计算机工程与科学, 2024, 46(10): 1748-1756.
[5]	蔡玉, 官铮, 王增文, 王学, 杨志军. 基于多智能体深度强化学习的车联网区分业务资源分配算法[J]. 计算机工程与科学, 2024, 46(10): 1757-1764.
[6]	庄述鑫, 陈永红, 郝一行, 吴巍炜, 徐学永, 王万元. 对抗环境中基于种群多样性的鲁棒策略生成方法[J]. 计算机工程与科学, 2024, 46(06): 1081-1091.
[7]	曾凡锋, 王春真, 李琛. 基于深浅层特征融合的无监督视频摘要算法研究[J]. 计算机工程与科学, 2023, 45(09): 1602-1610.
[8]	王扬, 陈智斌. 一种求解CVRP的动态图转换模型[J]. 计算机工程与科学, 2023, 45(05): 859-868.
[9]	彭坤彦, 尹翔, 刘笑竹, 李恒宇. 基于粒子群优化和深度强化学习的策略搜索方法[J]. 计算机工程与科学, 2023, 45(04): 718-725.
[10]	刘云, 肖添, 王梓宇. 动态特征选择算法对恶意行为检测的优化研究[J]. 计算机工程与科学, 2022, 44(04): 665-673.
[11]	阎红灿, 王子茹, 李伟芳, 谷建涛. 伴随时间的模糊聚类协同过滤推荐算法[J]. 计算机工程与科学, 2021, 43(11): 2084-2090.
[12]	童钊, 叶锋, 刘碧篮, 邓小妹, 梅晶, 刘宏. 移动边缘计算中多约束下的任务卸载和资源分配算法[J]. 计算机工程与科学, 2020, 42(10高性能专刊): 1869-1879.
[13]	蔡钺, 游进国, 丁家满. 基于近端策略优化与对抗学习的对话生成[J]. 计算机工程与科学, 2020, 42(09): 1680-1689.
[14]	官蕊, 丁家满, 贾连印, 游进国, 姜瑛, . 基于强化学习的多样性文档排序算法[J]. 计算机工程与科学, 2020, 42(09): 1697-1703.
[15]	韩虎, 孙天岳, 赵启涛. 引入自编码机制对抗网络的文本生成模型[J]. 计算机工程与科学, 2020, 42(09): 1704-1710.

基于模糊聚类的分层强化学习算法

A Hierarchical Reinforcement Learning Algorithm Based on Fuzzy Clustering

PDF

可视化

摘要/Abstract

引用本文

使用本文

相关文章 15

编辑推荐

Metrics

本文评价