计算机工程与科学 ›› 2024, Vol. 46 ›› Issue (02): 292-302.
钟卓辉1,2,陈黎飞1,2,3
ZHONG Zhuo-hui1,2,CHEN Li-fei1,2,3
摘要: 由于数据可能分布在非规则的流形上,其中潜在的簇往往呈现非凸的形状和结构,针对这类数据的聚类问题被统称为非凸聚类。现有的主流非凸聚类方法包括基于原始空间的方法和基于空间变换的方法,均忽略了非凸数据模式的显式描述。提出一种描述性模型用于非凸聚类。首先,基于核密度方法定义了一种具有混合形式的特征加权核密度模型,其无需事先假定任何概率分布模型且不限制簇的形状,这是传统基于模型的聚类方法无法实现的。其次,基于提出的模型推导了聚类目标函数,并基于期望最大化算法提出一种求解密度函数局部区域密度极大值的优化算法,那些上升到密度函数相同密度极大值的样本点被划分为同一个簇。最后,定义了一种基于模型的非凸聚类算法。算法不需人为定义簇的数量,并且能够为每个簇分配一个显式的概率密度函数,有助于更稳健和更准确地表征集群。除此之外,算法不仅在优化过程中进行自适应带宽选择,而且在优化过程中赋予了样本空间特征权重,实现了嵌入式特征选择。