J4 ›› 2016, Vol. 38 ›› Issue (02): 217-223.
刘彤1,张阳2,孙琦2,袁翀2
LIU Tong1,ZHANG Yang2,SUN Qi2,YUAN Chong2
摘要:
随着信息技术的发展,互联网信息资源变得越来越丰富,大数据技术的发展使得我们能够从互联网复杂的信息数据中获得相应的知识。这其中最基本的技术就是大数据采集技术,它使我们能够将互联网数据快速采集下来并结构化存储。设计的基于Hadoop的可视化Deep Web采集平台是一种简单易操作的高效深度采集平台,运用Webkit技术作为核心引擎实现可视化配置和深度采集功能,同时通过优化采集算法,调整Hadoop任务分配策略提升效率。 实验结果表明,设计的数据采集平台获得了较好的效果。