• 中国计算机学会会刊
  • 中国科技核心期刊
  • 中文核心期刊

J4 ›› 2015, Vol. 37 ›› Issue (05): 1009-1014.

• 论文 • 上一篇    下一篇

基于信息增益的模糊K-prototypes聚类算法

欧阳浩1,王智文1,戴喜生2,刘智琦1   

  1. (1.广西科技大学计算机学院,广西 柳州 545006;2.广西科技大学电气与信息工程学院,广西 柳州 545006)
  • 收稿日期:2014-09-10 修回日期:2014-11-04 出版日期:2015-05-25 发布日期:2015-05-25
  • 基金资助:

    国家自然科学基金资助项目(61462008,61364006);广西自然科学基金资助项目(2013GXNSFAA019336);广西高校科学技术研究项目(LX2014190,YB2014210,LX2014190);广西科技大学科学基金资助项目(校科自1261128)

A  fuzzy K-prototypes clustering algorithm
based on information gain  

OUYANG Hao1,WANG Zhiwen1,DAI Xisheng2,LIU Zhiqi1   

  1. (1.School of Computer,Guangxi University of Science and Technology,Liuzhou 545006;
    2.School of Electrical and Information Engineering,
    Guangxi University of Science and Technology,Liuzhou 545006,China)
  • Received:2014-09-10 Revised:2014-11-04 Online:2015-05-25 Published:2015-05-25

摘要:

K-prototypes聚类算法结合了K-means算法和K-modes算法,可用于分析混合属性的数据对象。传统的K-prototypes聚类算法在计算数据对象的相异度时,未考虑各个属性对于最终聚类结果的影响程度,而现实世界中,各属性的重要程度是不同的。使用了信息论中信息增益的计算方法,来获得各个属性的权值。在计算各属性的差异度时,乘以这些权值,从而可以获得更为准确的聚类结果。为了增加算法处理模糊问题的能力,本算法引用了模糊理论,从而使其具有较好的抗干扰能力和处理不确定性问题的能力。通过对四个UCI数据集的聚类分析实验,表明了本算法的有效性。

关键词: 聚类, 信息增益, 模糊K-prototypes算法, 混合型数据

Abstract:

K-prototypes clustering algorithms  combine K-means and K-modes to analyze mixed data objects.Classic K-prototypes clustering algorithms don’t consider the effect degree of each attribute to the last clustering results when calculating the dissimilarity of data object. But in the real world,the importance of each attribute varies.In this paper we use information gain of the information theory to get the weight of each attribute.These weights are used to get a better clustering result when we calculate the dissimilarity.In order to improve the fuzzy ability,the proposed algorithm exploits the fuzzy theory to get a better capability for dealing with anti-noise  and uncertain problems. Clustering experiments on four UCI data sets validate the effectiveness of our algorithm.

Key words: clustering;information gain;fuzzy K-prototypes;mixed data