位置加权文本聚类算法

J4 ›› 2011, Vol. 33 ›› Issue (6): 154-158.

位置加权文本聚类算法

金春霞,周海岩

（淮阴工学院计算机工程学院，江苏淮安 223003）

收稿日期:2010-09-15 修回日期:2011-12-28 出版日期:2011-06-25 发布日期:2011-06-25
作者简介:金春霞(1973),女,陕西兴平人，副教授，研究方向为计算机应用、信息处理和数据挖掘。周海岩(1957),男,河南人，教授，CCF会员（E200011783S），研究方向为信息安全、数据挖掘、人工智能和智能决策。
基金资助:
江苏省科技攻关项目（BE2006357）

A Text Clustering Algorithm Based on Position Weighting

JIN Chunxia,ZHOU Haiyan

(School of Computer Engineering,Huaiyin Institute of Technology,Huaian 223003,China)

Received:2010-09-15 Revised:2011-12-28 Online:2011-06-25 Published:2011-06-25

摘要/Abstract

摘要：

文本聚类是自然语言处理研究中一项重要研究课题，文本聚类技术广泛地应用于信息检索、Web挖掘和数字图书馆等领域。本文针对特征词在文档中的不同位置对文档的贡献大小不同，提出了基于特征词的位置加权文本聚类改进算法——TCABPW。通过选取反映文档主题的前L个高权值的特征项构造新的文本特征向量，采用层次聚类和Kmeans文本聚类相结合的改进算法实现文本聚类。实验结果表明，提出的改进算法在不影响聚类质量的情况下大大地降低了文本聚类的维度，在稳定性和纯度上都有显著提高，获得了较好的聚类效果。

关键词: 文本聚类, 文本向量, 特征选择, 位置加权, 簇间相似度

Abstract:

Document clustering is an important research topic of natural language processing and is widely applicable in the areas such as information retrieval, web mining and digital libraries. Because the feature terms of different positions in the document are different for the article’s contribution, TCABPW (a text clustering algorithm based on position weighting) is proposed in this paper. We construct a new text vector by selecting Ltopweight text that reflects the topical subject of the document and it is used to realize text clustering by hierarchical clustering and the Kmeans method. The results show that without affecting the quality of text clustering, the algorithm can not only greatly reduce the high dimension of text clustering, but also can significantly increase the stability and purity of text clutering, and can also produce the clusering effect of good quality.

Key words: text clustering;text vector;feature selecting;position weighting;similarity between clusters

金春霞,周海岩. 位置加权文本聚类算法[J]. J4, 2011, 33(6): 154-158.

JIN Chunxia,ZHOU Haiyan. A Text Clustering Algorithm Based on Position Weighting[J]. J4, 2011, 33(6): 154-158.

[1]	陈丽芳, 白云, 施永辉, 代琪. 面向不平衡数据的特征子空间增强的异质集成学习[J]. 计算机工程与科学, 2025, 47(05): 940-950.
[2]	刘振超, 苑迎春, 王克俭, 何晨. 融合特征权重与改进粒子群优化的特征选择算法[J]. 计算机工程与科学, 2024, 46(02): 282-291.
[3]	钟卓辉, 陈黎飞, . 基于模型的非凸聚类算法[J]. 计算机工程与科学, 2024, 46(02): 292-302.
[4]	赵瑞平, 降爱莲. 基于自编码器和局部嵌入的无监督特征选择[J]. 计算机工程与科学, 2023, 45(07): 1282-1291.
[5]	顾楚梅, 曹建军, 王保卫, 徐雨芯, . 基于蚁群参数优化的LightGBM辐射源个体识别[J]. 计算机工程与科学, 2023, 45(01): 85-94.
[6]	文武, 万玉辉, 文志云, . 基于正余弦算法的文本特征选择[J]. 计算机工程与科学, 2022, 44(08): 1467-1473.
[7]	刘云, 肖添, 王梓宇. 动态特征选择算法对恶意行为检测的优化研究[J]. 计算机工程与科学, 2022, 44(04): 665-673.
[8]	吴尚智, 徐丹丹, 王旭文, 夏宁. 基于广义重要度和runner-root算法的特征选择[J]. 计算机工程与科学, 2022, 44(04): 723-729.
[9]	李雨晨, 魏巍, 白伟明, 王达. 基于标签共现关系的多标签特征选择[J]. 计算机工程与科学, 2021, 43(11): 2049-2055.
[10]	文武, 万玉辉, 张许红, 文志云, . 基于改进CHI和PCA的文本特征选择[J]. 计算机工程与科学, 2021, 43(09): 1645-1652.
[11]	李向军1,2，孔珂2，魏智翔1，王科选1，肖聚鑫1. 面向Android恶意应用静态检测的特征频数差异增强算法[J]. 计算机工程与科学, 2020, 42(06): 993-1002.
[12]	武国胜, 张月琴. 基于LSA模型的改进密度峰值算法的微学习单元文本聚类研究[J]. 计算机工程与科学, 2020, 42(04): 722-732.
[13]	孟昱煜，陈绍立，刘兴长. 面向排序学习的层次聚类特征选择算法[J]. 计算机工程与科学, 2019, 41(12): 2211-2216.
[14]	张守宾，朱习军. 集成学习算法在中医证型分类预测中的应用[J]. 计算机工程与科学, 2019, 41(02): 328-334.
[15]	纪明君，刘漫丹，才乐千. 基于半监督LDA特征子空间优化的人脸识别算法[J]. 计算机工程与科学, 2018, 40(10): 1851-1857.