文本分类中CTM模型的优化和可视化应用研究

计算机工程与科学

文本分类中CTM模型的优化和可视化应用研究

马长林，杨正良，谢罗迪

（华中师范大学计算机学院,湖北武汉 430079）

收稿日期:2016-09-20 修回日期:2016-11-03 出版日期:2017-03-25 发布日期:2017-03-25
基金资助:
国家自然科学基金（61003192）

Optimization and visualization application

of CTM model in text classification

MA Chang-lin，YANG Zheng-liang，XIE Luo-di

（School of Computer,Central China Normal University,Wuhan 430079,China）

Received:2016-09-20 Revised:2016-11-03 Online:2017-03-25 Published:2017-03-25

摘要/Abstract

摘要：

如何从海量文本中自动提取相关信息已成为巨大的技术挑战，文本分类作为解决该问题的重要方法已引起广大关注，而其中文本表示是影响分类效果的关键因素。为此采用相关主题模型进行文本表示，以保证信息完整同时表现主题相关性；基于该模型，对主题数目和特征提取实施了优化处理，综合复杂度和对数似然函数来确定最优主题数目，引入基于互信息的主成分分析算法进行最优特征提取，降低数据维度和特征冗余，使用R语言进行可视化实验分析。

关键词: 文本分类, CTM 模型, 特征提取

Abstract:

How to automatically extract related information from enormous texts has become a huge challenge. As an efficient way to solve this problem, text classification has attracted much attention, in which text representation is a critical factor to affect classification results. The correlated topic model can implement text representation, which can correctly reflect the correlation between topics under the case to remain the integrity of information. Based on this model, we optimize feature selection and the number of topics, and determine the number of topics with perplexity and log-likelihood function. We adopt the principal component analysis algorithm based on mutual information to optimize feature selection, which can reduce data dimension and the redundancy of text features. The R language is used to visualize the experimental results.

Key words: text classification, CTM model, feature selection

马长林，杨正良，谢罗迪. 文本分类中CTM模型的优化和可视化应用研究[J]. 计算机工程与科学.

MA Chang-lin，YANG Zheng-liang，XIE Luo-di.

Optimization and visualization application

of CTM model in text classification

[J]. Computer Engineering & Science.

[1]	敬容1, 万福成1, 2, 黄锐1, 于洪志1, 2, 马宁1, 2. 融合降噪微调与图注意力机制的藏文长文本分类[J]. 计算机工程与科学, 2025, 47(6): 1133-1140.
[2]	于致远, 宋慧慧, . 用于遥感图像时空融合的多尺度全聚合网络[J]. 计算机工程与科学, 2025, 47(5): 864-874.
[3]	王宇飞, 刘强, 张唯贞, 伍晓洁, 李佳雯, 王煜恒. rtTorTIM：基于多模态特征融合和Stacking集成学习的实时Tor流量识别方法#br#[J]. 计算机工程与科学, 2025, 47(2): 238-246.
[4]	徐捷, 邵玉斌, 杜庆治, 龙华, 马迪南. 结合混合特征提取与深度学习的长文本语义相似度计算[J]. 计算机工程与科学, 2024, 46(8): 1513-1520.
[5]	肖新正, 黄瑞章, 陈艳平, 秦永彬, 宋玉梅, 周裕林, . Corrective-Net：面向多标签文本分类的标签关联学习模块[J]. 计算机工程与科学, 2024, 46(6): 1092-1100.
[6]	任晟岐, 宋伟. 基于GGInformer模型的多维时间序列特征提取与预测研究[J]. 计算机工程与科学, 2024, 46(4): 590-598.
[7]	高珊, 李世杰, 蔡志平. 基于深度学习的中文文本分类综述[J]. 计算机工程与科学, 2024, 46(4): 684-692.
[8]	冯兴杰, 曹若轩. 融合特征投影和负监督的文本分类[J]. 计算机工程与科学, 2024, 46(10): 1864-1874.
[9]	崔浩, 万亚平, 钟华, 聂明星, 肖杨. 基于LoRa设备的人体活动识别研究[J]. 计算机工程与科学, 2024, 46(1): 111-121.
[10]	许浪, 李代伟, 张海清, 唐聃, 何磊, 于曦. 基于神经网络的医疗文本分类研究[J]. 计算机工程与科学, 2023, 45(6): 1116-1122.
[11]	梅侠峰, 吴晓鸰, 黄泽民, 凌捷. 融合RoBERTa的多尺度语义协同专利文本分类模型[J]. 计算机工程与科学, 2023, 45(5): 903-910.
[12]	张文豪, 瞿绍军. 基于双解码器结构的多尺度注意力特征融合网络的视网膜血管分割#br#[J]. 计算机工程与科学, 2023, 45(12): 2175-2185.
[13]	陈巩, 李占利, 朱莉. 多尺度深度特征融合的个人信用风险预测[J]. 计算机工程与科学, 2023, 45(12): 2265-2273.
[14]	杨春霞, 马文文, 徐奔, 韩煜, . 融合标签信息的分层图注意力网络文本分类模型[J]. 计算机工程与科学, 2023, 45(11): 2018-2026.
[15]	周成江, 贾云华, 张雨宽, 禄俊. 基于FCEEMD复合筛选的故障特征提取方法[J]. 计算机工程与科学, 2023, 45(11): 2070-2077.