J4 ›› 2012, Vol. 34 ›› Issue (9): 128-134.
张晓芳,李国徽,庞永杰
ZHANG Xiaofang,LI Guohui,PANG Yongjie
摘要:
随着人们在互联网上的行为日益丰富,互联网上的社交行为和关系逐渐接近传统的客观世界的社交网络,并能够真实反映出人与人之间在客观世界的真实关系。可以从互联网中通过搜索的方式来构建一个真实客观世界的社会网络。社会网络搜索技术及其方法逐渐成为目前的研究热点,如何对每个Web进行人名同一性判断是社会网络搜索的关键技术。为了从文本中抽取准确的特征并降低向量维度,本文给出了一个基于Cvalue和逆文档频率IDF的特征向量权值计算方法;实现了基于余弦夹角的相似度计算的算法;通过对文本聚类算法中层次聚类算法和划分聚类算法的研究,给出一种改进的层次聚类算法来实现人名同一性判断。以搜索引擎的人名检索结果进行测试,说明了基于改进的层次聚类算法能有效地提高人名同一性判断的性能。