摘要:
话题演进分析主要是挖掘话题内容随着时间流的演进情况。话题的内容可用关键词来表示。利用
word2vec对75万篇新闻和微博文本进行训练,得到词向量模型。将文本流处理后输入模型,获得时间序
列下所有词汇的词向量,利用Kmeans对词向量进行聚类,从而实现话题关键词的抽取。实验对比了基
于PLSA和LDA主题模型下的话题抽取效果,发现本文的话题分析效果优于主题模型的方法。同时,采集足
够大量、内容足够丰富的语料,可训练得到泛化能力比较强的模型,有利于实时话题演进分析研究工作
。
林江豪1,周咏梅1,2,阳爱民1,2,王伟2. 结合词向量和聚类算法的新闻评论话题演进分析[J]. 计算机工程与科学.
LIN Jianghao1,ZHOU Yongmei1,2,YANG Aimin1,2,WANG Wei2.
Analysis on topic evolution of news comments by
combining word vector and clustering algorithm
[J]. Computer Engineering & Science.