基于信息增益的模糊K-prototypes聚类算法

J4 ›› 2015, Vol. 37 ›› Issue (05): 1009-1014.

基于信息增益的模糊K-prototypes聚类算法

欧阳浩1，王智文1，戴喜生2,刘智琦1

（1.广西科技大学计算机学院，广西柳州 545006;2.广西科技大学电气与信息工程学院，广西柳州 545006）

收稿日期:2014-09-10 修回日期:2014-11-04 出版日期:2015-05-25 发布日期:2015-05-25
基金资助:
国家自然科学基金资助项目（61462008,61364006）；广西自然科学基金资助项目（2013GXNSFAA019336）；广西高校科学技术研究项目（LX2014190,YB2014210,LX2014190）；广西科技大学科学基金资助项目（校科自1261128）

A fuzzy K-prototypes clustering algorithm
based on information gain

OUYANG Hao1,WANG Zhiwen1,DAI Xisheng2,LIU Zhiqi1

(1.School of Computer,Guangxi University of Science and Technology,Liuzhou 545006;
2.School of Electrical and Information Engineering,
Guangxi University of Science and Technology,Liuzhou 545006,China)

Received:2014-09-10 Revised:2014-11-04 Online:2015-05-25 Published:2015-05-25

摘要/Abstract

摘要：

K-prototypes聚类算法结合了K-means算法和K-modes算法，可用于分析混合属性的数据对象。传统的K-prototypes聚类算法在计算数据对象的相异度时，未考虑各个属性对于最终聚类结果的影响程度，而现实世界中，各属性的重要程度是不同的。使用了信息论中信息增益的计算方法，来获得各个属性的权值。在计算各属性的差异度时，乘以这些权值，从而可以获得更为准确的聚类结果。为了增加算法处理模糊问题的能力，本算法引用了模糊理论，从而使其具有较好的抗干扰能力和处理不确定性问题的能力。通过对四个UCI数据集的聚类分析实验，表明了本算法的有效性。

关键词: 聚类, 信息增益, 模糊K-prototypes算法, 混合型数据

Abstract:

K-prototypes clustering algorithms combine K-means and K-modes to analyze mixed data objects.Classic K-prototypes clustering algorithms don’t consider the effect degree of each attribute to the last clustering results when calculating the dissimilarity of data object. But in the real world,the importance of each attribute varies.In this paper we use information gain of the information theory to get the weight of each attribute.These weights are used to get a better clustering result when we calculate the dissimilarity.In order to improve the fuzzy ability,the proposed algorithm exploits the fuzzy theory to get a better capability for dealing with anti-noise and uncertain problems. Clustering experiments on four UCI data sets validate the effectiveness of our algorithm.

Key words: clustering;information gain;fuzzy K-prototypes;mixed data

欧阳浩1，王智文1，戴喜生2,刘智琦1. 基于信息增益的模糊K-prototypes聚类算法[J]. J4, 2015, 37(05): 1009-1014.

OUYANG Hao1,WANG Zhiwen1,DAI Xisheng2,LIU Zhiqi1. A fuzzy K-prototypes clustering algorithm
based on information gain [J]. J4, 2015, 37(05): 1009-1014.

[1]	柴旭清, 乔一航, 范黎林, . 一种基于随机森林分类器构建高性能应用程序性能分析模型的方法[J]. 计算机工程与科学, 2024, 46(07): 1218-1228.
[2]	宋鑫海, 韩京宇, 郎杭, 毛毅. 滑动窗口投票策略的QRS波群形态识别[J]. 计算机工程与科学, 2024, 46(02): 272-281.
[3]	钟卓辉, 陈黎飞, . 基于模型的非凸聚类算法[J]. 计算机工程与科学, 2024, 46(02): 292-302.
[4]	肖振国, 陈林书, 孙少杰, 梅本霞, 柳媛慧, 赵磊. 基于代数粒的聚类方法[J]. 计算机工程与科学, 2024, 46(01): 150-158.
[5]	王若宾, 耿芳东, 张永梅, 宋威, 王伟锋, 徐琳. 基于改进自适应DBSCAN的混合式MOOC视频观看模式挖掘[J]. 计算机工程与科学, 2023, 45(09): 1670-1678.
[6]	李帅, 常锦才, 李吕牧之, 蔡昆杰, . 基于差分隐私保护的Stacking集成聚类算法研究[J]. 计算机工程与科学, 2022, 44(08): 1402-1408.
[7]	李兰, 刘杰, 张洁. 基于YOLOv4改进算法的复杂行人检测模型研究[J]. 计算机工程与科学, 2022, 44(08): 1449-1456.
[8]	陈奉贤. 基于NR-Transformer的集群作业运行时间预测[J]. 计算机工程与科学, 2022, 44(07): 1181-1190.
[9]	庞兴龙, 朱国胜, 杨少龙, 李修远. 一种基于聚类与噪声的网络流量分类方法[J]. 计算机工程与科学, 2022, 44(07): 1207-1215.
[10]	黄志强, 李军, 张世义. 基于轻量级神经网络的目标检测研究[J]. 计算机工程与科学, 2022, 44(07): 1265-1272.
[11]	刘榕, 伍欣, 敖斌, 文青, 李宽. 用于CD56图像分割的细胞标注精细化与自适应加权损失[J]. 计算机工程与科学, 2022, 44(05): 870-878.
[12]	刘云, 肖添, 王梓宇. 动态特征选择算法对恶意行为检测的优化研究[J]. 计算机工程与科学, 2022, 44(04): 665-673.
[13]	袁泉, 晏飞扬, 文志云, 张振康, . 基于谱聚类的社交网络差分隐私保护算法研究[J]. 计算机工程与科学, 2022, 44(02): 251-256.
[14]	许光宇, 丁健. 基于特征聚类的大视差图像拼接算法 [J]. 计算机工程与科学, 2022, 44(02): 283-290.
[15]	沈郭鑫, 蒋中云. 基于密度和中心指标的Canopy二分K-均值算法优化[J]. 计算机工程与科学, 2022, 44(02): 372-380.