基于核心词项平均划分相似度的短文本聚类算法

计算机工程与科学

基于核心词项平均划分相似度的短文本聚类算法

马慧芳，朱志强，成玉丹，贾俊杰

（西北师范大学计算机科学与工程学院，甘肃兰州 730070）

收稿日期:2016-03-24 修回日期:2016-05-13 出版日期:2017-08-25 发布日期:2017-08-25
基金资助:
国家自然科学基金(61363058)；甘肃省青年科技基金(145RJYA259);甘肃省自然科学研究基金(145RJZA232,150RJZA127);中国科学院计算技术研究所智能信息处理重点实验室开放基金(IIP2014-4);2016本科生创新能力提升计划——学术科技创新团队资助项目;2016年甘肃省大学生创新创业训练计划（
201610736040,
201610736041）

Core term based mean partition

similarity for short text clustering

MA Hui-fang，ZHU Zhi-qiang，CHENG Yu-dan，JIA Jun-jie

（College of Computer Science and Engineering,Northwest Normal University,Lanzhou 730070,China）

Received:2016-03-24 Revised:2016-05-13 Online:2017-08-25 Published:2017-08-25

摘要/Abstract

摘要：

针对短文本特征极度稀疏、上下文依赖性强等特点，以自顶向下的策略，提出一种基于核心词项平均划分相似度的短文本聚类算法CTMPS。该方法首先在整个短文本语料库中计算词项之间的概率相关性，以此为基础对短文本中词项进行加权，将权值较大的词项作为最能代表该短文本的核心词项形成核心词项集；以信息论为基础，将核心词项作为划分依据计算平均划分相似度，选择平均划分相似度值最大包含该核心词项的短文本形成一类，用此策略反复迭代直到满足要求。最后，实验结果表明，本文提出的方法显著地提高了短文本聚类的性能。

关键词: 短文本聚类, 核心词项, 平均划分相似度, 概率相关性, 熵

Abstract:

Aiming at the characteristics of extreme sparse and context dependent features of short texts, we propose a novel core term based mean partition similarity for short text clustering algorithm (CTMPS) with top-down strategy. The CTMPS firstly determines probabilistic correlation among terms in the corpus. Secondly, based on the probabilistic correlation,terms in a short text are weighted. The terms with larger weight are considered as the most representative terms of the short text and they then form the core terms set. On the basis of information theory, mean partition similarity (MPS) is calculated via core terms, and the MPS with the maximum core terms in the short text forms one class. Finally, experimental results show that the CTMPS outperforms the baseline algorithm in term of performance and clustering efficiency.

Key words: short text clustering, core term, mean partition similarity, probabilistic correlation, entropy

马慧芳，朱志强，成玉丹，贾俊杰. 基于核心词项平均划分相似度的短文本聚类算法[J]. 计算机工程与科学.

MA Hui-fang，ZHU Zhi-qiang，CHENG Yu-dan，JIA Jun-jie.

Core term based mean partition

similarity for short text clustering

[J]. Computer Engineering & Science.

[1]	卢建云, 邵俊明. 基于多层次密度中心图的聚类算法[J]. 计算机工程与科学, 2025, 47(2): 327-335.
[2]	李猛, 刘姿邑, 宋宇航. 基于双重自表达与最大熵原理的深度子空间聚类算法[J]. 计算机工程与科学, 2024, 46(9): 1685-1692.
[3]	王晓琦, 赵宣植, 刘增力, . 基于多尺度小波和Tsallis熵的水下图像边缘检测[J]. 计算机工程与科学, 2023, 45(7): 1245-1252.
[4]	闫少辉, 施万林, 宋震龙, 王尔童, 孙溪, 黄羿博, . 一个新三维混沌电路设计及其同步控制[J]. 计算机工程与科学, 2022, 44(8): 1409-1417.
[5]	苟平章, 原晨, 张芬. 基于软件定义的WSNs非均匀分簇QoS路由算法[J]. 计算机工程与科学, 2022, 44(2): 227-236.
[6]	李叔敖, 解庆, 马艳春, 刘永坚. 基于路径聚合扩张卷积的图像语义分割方法[J]. 计算机工程与科学, 2021, 43(4): 712-720.
[7]	靳旭文, 李国东. 基于Strcmp分解超Lorenz混沌的图像加密算法[J]. 计算机工程与科学, 2021, 43(3): 456-464.
[8]	韩虎, 孙天岳, 赵启涛. 引入自编码机制对抗网络的文本生成模型[J]. 计算机工程与科学, 2020, 42(9): 1704-1710.
[9]	沈晓燕, 王雪梅, 王燕. 基于样本熵和模式识别的脑电信号识别算法研究[J]. 计算机工程与科学, 2020, 42(8): 1482-1488.
[10]	潘曙灿, 许青林. 融合特征向量中心性与标签熵的标签传播算法[J]. 计算机工程与科学, 2020, 42(8): 1489-1499.
[11]	罗凡波, 王平, 徐桂菲, 雷勇军, 范烊. 基于多尺度卷积神经网络的人群聚集异常预测[J]. 计算机工程与科学, 2020, 42(12): 2223-2232.
[12]	肖雪,薛善良. 基于改进的OPTICS聚类和LOPW的离群数据检测算法[J]. 计算机工程与科学, 2019, 41(5): 885-892.
[13]	佘志用,段超，张雷. 变精度最小平方粗糙熵的图像分割算法[J]. 计算机工程与科学, 2019, 41(4): 657-664.
[14]	熊炜1,2，冯川1，熊子婕1，王娟1,2，刘敏1,2，曾春艳1,2. 基于CNN的改进行人重识别技术[J]. 计算机工程与科学, 2019, 41(4): 665-672.
[15]	张冰1，董骁雄2，李文1，孟祥飞1，李超1. 基于直觉模糊熵的群组聚类决策方法[J]. 计算机工程与科学, 2019, 41(4): 692-698.