• 中国计算机学会会刊
  • 中国科技核心期刊
  • 中文核心期刊

J4 ›› 2005, Vol. 27 ›› Issue (6): 70-71.

• 论文 • 上一篇    下一篇

基于聚类分析技术的数据清洗研究

刘芳 何飞   

  • 出版日期:2005-06-01 发布日期:2010-07-03

  • Online:2005-06-01 Published:2010-07-03

摘要:

数据清洗是建立数据仓库及进行数据挖掘的一个重要步骤。数据清洗的核心是检测近似重复记录,而聚类是将相似度高的数据对象聚集到一个类中的分析方法。本文描述的数  据清洗过程就基于聚类分析,它将基于密度的改进聚类算法ICAD应用到数据清洗过程中,该算法通过不断调节密度发现近似重复记录,快速完成大容量数据清洗任务。

关键词: 数据清洗 近似重复记录 聚类 ICAD