摘要:
Web文本表示方法作为所有Web文本分析的基础工作,对文本分析的结果有深远的影响。提出了一种多维
度的Web文本表示方法。传统的文本表示方法一般都是从文本内容中提取特征,而文档的深层次特征和外
部特征也可以用来表示文本。本文主要研究文本的表层特征、隐含特征和社交特征,其中表层特征和隐
含特征可以由文本内容中提取和学习得到,而文本的社交特征可以通过分析文档与用户的交互行为得到
。所提出的多维度文本表示方法具有易用性,可以应用于各种文本分析模型中。在实验中,改进了两种
常用的文本聚类算法——Kmeans和层次聚类算法,并命名为多维度Kmeans MDKM和多维度层次聚类算
法MDHAC。通过大量的实验表明了本方法的高效性。此外,我们在各种特征的结合实验结果中还有一些深
层次的发现。
陈功1,黄瑞章1,2,钟文良1. 基于社交特征的多维度文本表示方法[J]. 计算机工程与科学.
CHEN Gong1,HUANG Ruizhang1,2,ZHONG Wenliang1.
A multidimension document representation
approach based on social features
[J]. Computer Engineering & Science.