• 中国计算机学会会刊
  • 中国科技核心期刊
  • 中文核心期刊

J4 ›› 2008, Vol. 30 ›› Issue (2): 1-4.

• 论文 •    下一篇

基于历史网页的事件报导信息系统设计与分析

黄连恩 李晓明   

  • 出版日期:2008-02-01 发布日期:2010-05-19

  • Online:2008-02-01 Published:2010-05-19

摘要:

Webinfomall是北京大学网络实验室从2001年开始建设的中国网页档案馆。迄今,它已经收藏了自2002年初以来出现在中国互联网上的近30亿网页,而且以每天100~200万网页的速度在不断增加。这些网页不仅来源于不同的URL,而且还包含同一个URL的不同内容版本,其中许多内容目前在中国互联网上已经不复存在。如何在这样一个海量信息系统中开展有效的信息挖掘是我们面对的一个基本问题。本文描述一个实验性系统(HisTrace)框架。该系统旨在支持人们从Webirdomall中尽量准确、完整地提取与重要历史 事件相关的网络新闻报道,并按照报道发生的时间顺序将它们不重复地展示出来。由于Webinfomall的海量性,也由于网络信息的复杂性和随意性,这其中有不少挑战。本文
对其中的主要环节进行了分析。最后,我们简要介绍了系统的初步实现情况。

关键词: 网络信息挖掘 网页内容分析 文本消重 网页链接结构 信息压缩

Abstract:

Webinfomall is a Chinese web archive developed at Peking University since 2001. As of today, it has accumulated about three billion Chinese web pages  since early 2002, and is increasing in volume at the rate of one to two million pages a day. Providing an effective information mining system over Webin fomall is a basic challenge we would like to take. In this article, we describe a pilot effort towards the challenge. In particular, a system framework (HisTrace) is introduced, which aims at an efficient extraction of reports about historical events. Due to the sheer amount of data in Webinfomall and d the noisy nature of web pages, it turns out that many engineering issues must be addressed. This report provides an analysis of some of the major ones  . Finally, we briefly describe the implementation status of HisTrace.

Key words: web archive, text mining, link analysis, replica detection, information compression