J4 ›› 2005, Vol. 27 ›› Issue (6): 70-71.
• 论文 • 上一篇 下一篇
刘芳 何飞
出版日期:
发布日期:
Online:
Published:
摘要:
数据清洗是建立数据仓库及进行数据挖掘的一个重要步骤。数据清洗的核心是检测近似重复记录,而聚类是将相似度高的数据对象聚集到一个类中的分析方法。本文描述的数 据清洗过程就基于聚类分析,它将基于密度的改进聚类算法ICAD应用到数据清洗过程中,该算法通过不断调节密度发现近似重复记录,快速完成大容量数据清洗任务。
关键词: 数据清洗 近似重复记录 聚类 ICAD
刘芳 何飞. 基于聚类分析技术的数据清洗研究[J]. J4, 2005, 27(6): 70-71.
0 / / 推荐
导出引用管理器 EndNote|Ris|BibTeX
链接本文: http://joces.nudt.edu.cn/CN/
http://joces.nudt.edu.cn/CN/Y2005/V27/I6/70