• 中国计算机学会会刊
  • 中国科技核心期刊
  • 中文核心期刊

J4 ›› 2007, Vol. 29 ›› Issue (2): 36-39.

• 论文 • 上一篇    下一篇

一种新型的Web挖掘数据采集模型

胡迎松 宁海霞   

  • 出版日期:2007-02-01 发布日期:2010-06-01

  • Online:2007-02-01 Published:2010-06-01

摘要:

本文在简要论述了当前Web挖掘采用的数据源不足后,分析了XML文档结构与Web挖掘算法结构的相似性,提出了采用XML技术在应用服务层采集用户访问数据的数据源模型X-DIM,并分析了它的优越性。该模型克服了以往基于Web访问日志在数据预处理中的一系列问题,具有数据完备、准确度高、便于为挖掘算法使用等优点,有较高的应用价值。

关键词: XML X-DIM Web挖掘 电子商务

Abstract:

The paper briefly describes the demerits of insufficient data sources adopted in the current Web mining,analyses the similarity between the XML docume nt structure and the Web mining algorithm structure,proposes a data source model X-DIM of adopting the XML technology in the application service layer to sample users' access data,and analyes its advantages.The model overcomes a series of problems previously encountered in data preprocessing based on   the Web access log,and features the merits of data completeness,high accuracy,ease of use in mining algorithms,and high application value.

Key words: (XML,X-DIM,Web mining,E-commerce)