基于Hadoop的可视化Deep Web采集平台设计

J4 ›› 2016, Vol. 38 ›› Issue (02): 217-223.

基于Hadoop的可视化Deep Web采集平台设计

刘彤1,张阳2,孙琦2,袁翀2

(1.北京市计算中心云计算关键技术与应用北京市重点实验室,北京 100094;
2.北京市计算中心云计算关键技术与应用北京市重点实验室物联网与大数据应用事业部,北京 100094）

收稿日期:2015-09-10 修回日期:2015-11-13 出版日期:2016-02-25 发布日期:2016-02-25
基金资助:
国家自然科学基金(71303023)；北京市科学技术研究院萌芽计划基金

Design of a visual Deep Web crawler platform based on Hadoop

LIU Tong1,ZHANG Yang2,SUN Qi2,YUAN Chong2

（1.Beijing Key Laboratory of Cloud Computing Key Technology and Application,Beijing Computing Center,Beijing 100094;
2.Department of ToT and Big Data Applications,Beijing Key Laboratory of Cloud Computing Key
Technology and Application,Beijing Computing Center,Beijing 100094,China）

Received:2015-09-10 Revised:2015-11-13 Online:2016-02-25 Published:2016-02-25

摘要/Abstract

摘要：

随着信息技术的发展,互联网信息资源变得越来越丰富,大数据技术的发展使得我们能够从互联网复杂的信息数据中获得相应的知识。这其中最基本的技术就是大数据采集技术,它使我们能够将互联网数据快速采集下来并结构化存储。设计的基于Hadoop的可视化Deep Web采集平台是一种简单易操作的高效深度采集平台,运用Webkit技术作为核心引擎实现可视化配置和深度采集功能,同时通过优化采集算法,调整Hadoop任务分配策略提升效率。实验结果表明,设计的数据采集平台获得了较好的效果。

关键词: 数据采集, Hadoop, 可视化

Abstract:

With the development of IT technology, internet information resources become much richer. We can obtain relevant knowledge from complicated internet information thanks to the rapid development of big data technology. The most essential part is the big data crawler technology which can crawl and save Internet data structurally. In this paper, we present and develop an efficient Deep Web information crawler based on Hadoop. This crawler employs the Webkit as the core engine which can implement the visual configuration and the deep data collection. To improve the efficiency, the data collection algorithm is also optimized by adjusting the strategy of task distribution in Hadoop. Experimental results demonstrate that the developed data collection platform can obtain better results.

Key words: data crawler;Hadoop;visualization

刘彤1,张阳2,孙琦2,袁翀2. 基于Hadoop的可视化Deep Web采集平台设计[J]. J4, 2016, 38(02): 217-223.

LIU Tong1,ZHANG Yang2,SUN Qi2,YUAN Chong2. Design of a visual Deep Web crawler platform based on Hadoop [J]. J4, 2016, 38(02): 217-223.

编辑推荐

Metrics

阅读次数

全文

218

HTML			PDF

最新录用	在线预览	正式出版	最新录用	在线预览	正式出版
0	0	0	0	0	218

来源	本网站	其他网站

次数	177	41
比例	81%	19%

摘要

136

最新录用	在线预览	正式出版

0	0	136

	来源	本网站

	次数	136
	比例	100%

[1]	苏丽，孙彦猛，张博为，杨先博，朱颖. 一种基于Hadoop+CUDA实现相关器的方法[J]. J4, 20160101, 38(01): 46-51.
[2]	肖新正, 黄瑞章, 陈艳平, 秦永彬, 宋玉梅, 周裕林, . Corrective-Net：面向多标签文本分类的标签关联学习模块[J]. 计算机工程与科学, 2024, 46(06): 1092-1100.
[3]	钟权, 陈志广, 高蓝光. EMRI-Tree：面向多分辨率可视化的层次式数据结构[J]. 计算机工程与科学, 2024, 46(05): 776-784.
[4]	吕高锋, 王玉鹏, 杨鎔嘉, 唐竹. 基于聚合的FlowRadar网络数据采集加速模型设计[J]. 计算机工程与科学, 2022, 44(02): 220-226.
[5]	田旭飞, 姚凯学, 王凯鹏, 王运峰. 基于LoRa和STM32的路灯自动监控系统的研究[J]. 计算机工程与科学, 2021, 43(08): 1470-1478.
[6]	赵俊生, 王鑫宇, 尹玉洁, 张林. 基于蒙古语新闻领域本体的分布式检索方法[J]. 计算机工程与科学, 2021, 43(03): 560-570.
[7]	何亮1,2,3,郜沐晨1,2,3,陈锁忠1,2,3,齐慧1,2,3. 地下水渗流场可视化方法与应用研究[J]. 计算机工程与科学, 2020, 42(05): 835-842.
[8]	杨青1,2,3，张亚文1,2，张琴1，袁佩玲1. 基于Hadoop的多维关联规则挖掘算法研究及应用[J]. 计算机工程与科学, 2019, 41(12): 2127-2133.
[9]	李雨冲，闫昭帆，严国萍. 基于边缘的双路卷积神经网络及其可视化[J]. 计算机工程与科学, 2019, 41(10): 1837-1845.
[10]	张丽敏，高晶，李务斌，刘晨. 微服务环境下容器编排可视化实践研究[J]. 计算机工程与科学, 2019, 41(08): 1366-1373.
[11]	赵维平1，孙宁2，杨晓春3，郑国真4. 基于知识图谱的东方音乐可视化教育研究与应用[J]. 计算机工程与科学, 2018, 40(增刊S1): 56-62.
[12]	马长林，谢罗迪，陈梦丽. 基于CTM模型的观点挖掘和可视化[J]. 计算机工程与科学, 2018, 40(04): 745-751.
[13]	黄冬梅1，杜艳玲1,2，张律文1. 基于信息熵种子点选取的流线可视化[J]. 计算机工程与科学, 2018, 40(03): 411-417.
[14]	王志宝1，夏昊2，王成波2. 地理信息检索关键技术研究综述[J]. 计算机工程与科学, 2018, 40(03): 533-543.
[15]	王永坤1,罗萱1,金耀辉1,2. 基于私有云和物理机的混合型大数据平台设计及实现[J]. 计算机工程与科学, 2018, 40(02): 191-199.