• 中国计算机学会会刊
  • 中国科技核心期刊
  • 中文核心期刊

计算机工程与科学

• 高性能计算 • 上一篇    下一篇

基于BTM主题模型的Web服务聚类方法研究

陈婷1,2,刘建勋1,2,曹步清1,2,李润2   

  1. (1.湖南科技大学知识处理与网络化制造湖南省普通高校重点实验室,湖南 湘潭 411201;
    2.湖南科技大学计算机科学与工程学院,湖南 湘潭 411201)
  • 收稿日期:2018-05-11 修回日期:2018-07-18 出版日期:2018-10-25 发布日期:2018-10-25
  • 基金资助:

    国家自然科学基金(61572187,61402168);湖南省教育厅创新平台开放基金(17K033)

Web services clustering based on Biterm topic model

CHEN Ting1,2,LIU Jianxun1,2,CAO Buqing1,2,LI Run2   

  1. (1.Key Laboratory of Knowledge Processing & Networked Manufacturing,
    Hunan University of Science and Technology,Xiangtan 411201;
    2.School of Computer Science and Engineering,Hunan University of Science and Technology,Xiangtan 411201,China)
  • Received:2018-05-11 Revised:2018-07-18 Online:2018-10-25 Published:2018-10-25

摘要:

针对网络中海量的Web服务聚类时,因其表征数据稀疏而导致使用传统建模方法所获效果不理想的问题,提出了一种基于BTM主题模型的Web服务聚类方法。该方法首先利用BTM学习整个Web服务描述文档集的隐含主题,通过推理得出每篇文档的主题分布,然后应用KMeans算法对Web服务进行聚类。通过与LDA、TFIDF等方法进行对比发现,该方法在聚类纯度、熵和FMeasure指标上均具有更好的效果。实验表明,该方法能够有效解决因Web服务描述所具有的短文本性质而导致的数据稀疏性问题,可显著提高服务聚类效果。
 

关键词: Web服务, BTM主题模型, 短文本, Web服务聚类

Abstract:

It is not ideal for the huge number of Web services with data sparseness to use traditional modeling methods to cluster them. To solve this problem, we present a Web service clustering method based on the Biterm topic model (BTM). This method firstly employs the BTM to learn the latent topics of Web service description corpus. Secondly, it derives the topic distribution of each Web service. Finally, it uses the K-Means algorithm to cluster Web services. Compared with the LDA and TF-IDF clustering methods, the proposed approach achieves better performance in purity, entropy and F-measure. Our method can effectively solve the data sparseness problem caused by the short text nature of Web service description, and significantly improve service clustering.

Key words: Web service, Biterm topic model, short text, Web services clustering