J4 ›› 2014, Vol. 36 ›› Issue (03): 404-410.
罗芳1,李春花1,周可1,黄永峰2,廖正霜1
LUO Fang1,LI Chunhua1,ZHOU Ke1,HUANG Yongfeng2,LIAO Zhengshuang1
摘要:
传统的Web数据检索一般采用全文检索方法,该方法具有很好的灵活性,但舆情分析往往需要获得相关的网页属性及统计信息。针对传统的Web检索方法无法满足上述需求,基于Hadoop平台设计并实现了一种基于多属性的海量Web数据的关联存储及检索系统,为舆情分析提供基础检索与统计服务。主要实现HDFS上基于属性的网页数据的分类和聚类存储,解决小文件存储同时提高数据访问吞吐量;建立原始网页数据与属性数据之间的关联映射;基于HBase的已有索引机制,结合分布式本地索引机制解决基于HBase的动态属性多条件选择查询的辅助索引问题。