基于Hadoop的广域网分布式主题爬虫系统框架

J4 ›› 2015, Vol. 37 ›› Issue (04): 670-675.

基于Hadoop的广域网分布式主题爬虫系统框架

王淑芬1,高军礼1,邹普1，宋海涛2

（1.广东工业大学自动化学院，广东广州 510006；2.华南理工大学工商管理学院，广东广州 510641）

收稿日期:2013-08-12 修回日期:2014-04-10 出版日期:2015-04-25 发布日期:2015-04-25
基金资助:
国家自然科学基金重大项目（710990403）；中央高校基金项目（2014ZM0038）；广东省省部产学研结合项目重点引导项目（2011B090400522）

A framework of WAN distributed topic
crawling system based on Hadoop

WANG Shufen1,GAO Junli1,ZOU Pu1,SONG Haitao2

(1.School of Automation,Guangdong University of Technology,Guangzhou 510006;
2.School of Business Administration,South China University of Technology,Guangzhou 510641,China)

Received:2013-08-12 Revised:2014-04-10 Online:2015-04-25 Published:2015-04-25

摘要/Abstract

摘要：

广域网分布式爬虫与局域网爬虫相比有诸多的优势，而现有基于Hadoop分布式爬虫的设计主要是面向局域网环境的。为解决Hadoop分布式计算平台不适合部署于广域网的问题，设计了一个基于Hadoop的广域网分布式爬虫系统框架。爬虫系统利用消息中间件实现分布式可靠通信，数据存储采用可伸缩的Hadoop分布式文件系统HDFS，网页解析利用MapReduce并行处理，并基于模板匹配实现框架可定制。系统的性能仿真显示该框架具有支撑大规模爬虫并发工作的能力。

关键词: 分布式爬虫, Hadoop, 爬虫框架, 模板匹配, 主题爬虫

Abstract:

Comparing with LAN crawling systems, WAN distributed crawling systems have lots of advantages, however, the existing crawling systems based on Hadoop are mostly used in LAN. To achieve a high computing speed of Hadoop in WAN, we present a crawler framework based on Hadoop. To achieve an extensible storage, all data are stored on the Hadoop distributed file system and the web pages are analyzed through MapReduce in parallel. To obtain reliable communication, a message oriented middleware is used. To make the framework customizable, a template matching method is proposed. The performance simulation shows that the crawler framework can support large scale crawling work.

Key words: WAN based distributed crawler;Hadoop;crawling system framework;templates matching;topic crawler

王淑芬1,高军礼1,邹普1，宋海涛2. 基于Hadoop的广域网分布式主题爬虫系统框架[J]. J4, 2015, 37(04): 670-675.

WANG Shufen1,GAO Junli1,ZOU Pu1,SONG Haitao2. A framework of WAN distributed topic
crawling system based on Hadoop [J]. J4, 2015, 37(04): 670-675.

编辑推荐

Metrics

阅读次数

全文

269

HTML			PDF

最新录用	在线预览	正式出版	最新录用	在线预览	正式出版
0	0	0	0	0	269

来源	本网站	其他网站

次数	204	65
比例	76%	24%

摘要

168

最新录用	在线预览	正式出版

0	0	168

来源	本网站	其他网站

次数	166	2
比例	99%	1%

[1]	苏丽，孙彦猛，张博为，杨先博，朱颖. 一种基于Hadoop+CUDA实现相关器的方法[J]. J4, 20160101, 38(01): 46-51.
[2]	赵俊生, 王鑫宇, 尹玉洁, 张林. 基于蒙古语新闻领域本体的分布式检索方法[J]. 计算机工程与科学, 2021, 43(03): 560-570.
[3]	杨青1,2,3，张亚文1,2，张琴1，袁佩玲1. 基于Hadoop的多维关联规则挖掘算法研究及应用[J]. 计算机工程与科学, 2019, 41(12): 2127-2133.
[4]	王永坤1,罗萱1,金耀辉1,2. 基于私有云和物理机的混合型大数据平台设计及实现[J]. 计算机工程与科学, 2018, 40(02): 191-199.
[5]	刘鹏1,2，叶帅3，孟磊1,2，王灿4. 基于Spark的并行遗传算法求解多峰函数极值[J]. 计算机工程与科学, 2018, 40(02): 210-217.
[6]	肖文，胡娟，周晓峰. PFPonCanTree：一种基于MapReduce的并行频繁模式增量挖掘算法[J]. 计算机工程与科学, 2018, 40(01): 15-23.
[7]	蔡武越1,王珂2，郝玉洁2，段晓冉2. 一种Hadoop集群下的行为异常检测方法[J]. 计算机工程与科学, 2017, 39(12): 2185-2191.
[8]	吴云蔚，宁芊. 基于Hadoop平台的分布式SVM参数寻优[J]. 计算机工程与科学, 2017, 39(06): 1042-1047.
[9]	黄伟建，杨海龙. Hadoop下改进布隆过滤器算法的网页去重[J]. 计算机工程与科学, 2017, 39(02): 285-290.
[10]	张波，徐蔚鸿，陈沅涛，朱玲. 基于Hash改进的k-means算法并行化设计[J]. 计算机工程与科学, 2016, 38(10): 1980-1985.
[11]	雷力1，钱斌海1，郭俊1，顾雄礼2，刘鹏1. 集成I/O硬件压缩加速器的Hadoop系统结构[J]. 计算机工程与科学, 2016, 38(08): 1524-1529.
[12]	徐涛，顾瑜，汪东升. 基于关键列分组排序的列存储结构[J]. 计算机工程与科学, 2016, 38(08): 1536-1541.
[13]	江涛1，袁景凌1，陈旻骋1，宋华明2. 基于加速收敛蜂群算法的资源感知调度器[J]. 计算机工程与科学, 2016, 38(08): 1595-1601.
[14]	刘李漫1，张治国2，满征瑞2. 基于模板匹配及区域信息融合提取的快速目标跟踪算法[J]. J4, 2016, 38(03): 534-541.
[15]	阮志毅，沈有建，刘凤玲. 基于数学形态学的模糊集理论在车牌字符识别中的运用[J]. J4, 2016, 38(03): 562-568.