基于扩展概念格模型的文本分类规则提取的研究

doi:10.3969/j.issn.1007130X.2010.

J4 ›› 2010, Vol. 32 ›› Issue (8): 98-100.doi: 10.3969/j.issn.1007130X.2010.

基于扩展概念格模型的文本分类规则提取的研究

周〓顽，周才学

（九江学院信息科学与技术学院,江西九江 332005）

收稿日期:2009-05-22 修回日期:2009-09-10 出版日期:2010-07-25 发布日期:2010-07-28
作者简介:周顽（1976），男，湖北黄梅人，副教授，研究方向为数据挖掘和Web技术；周才学，副教授，研究方向为网络安全。

Research on the Extracting Rules of Text Categorization Based on the Extended Concept Lattice Model

ZHOU Wan,ZHOU Caixue

(School of Information Science and Technology,Jiujiang University,Jiujiang 332005,China)

Received:2009-05-22 Revised:2009-09-10 Online:2010-07-25 Published:2010-07-28

摘要/Abstract

摘要：

文本分类是信息检索与数据挖掘领域的研究热点与核心技术，近年来得到了广泛的关注和快速的发展。概念格是规则提取和数据分析的有效工具，然而概念格的构造效率始终是概念格应用的一大难题。本文研究了基于扩展概念格模型的文本分类规则提取,利用粗糙集和扩展概念格模型来进行分类规则提取。该方法利用概念树，极大地除去了冗余的概念，只需要建造很少的概念就能够提取出全部的分类规则，不仅效率较高，而且同时提取的分类规则与概念格相同。本文算法在MATLAB7.0的环境中运行的实验表明，查全率比KNN算法和SVM算法稍低，但是查准率比它们都高，因此该分类规则用于文本分类时效果与KNN和SVM相当。

关键词: 文本分类, 数据挖掘, 粗糙集, 概念格, 分类规则

Abstract:

The technique of auto text categorization is the foundation in text mining, and text feature selection is the core of the text categorization. Concept lattice is a very effective method to extract rules and data analysis, however, its building efficiency is very low. This paper extracts the rules of the text categorization based on the extended concept lattices model, takes advantage of concept lattice in the categorization rule extracting which eliminates the useless concepts. This method can extract all rules by using a few concepts, which is efficient. This algorithm shows in the environment of running MATLAB7.0 that the recallprecision is slightly lower than KNN and SVM ,but precision ratio is higher than them. Therefore, if the classification rules are applied to text categorization, the categorization effect can be comparable with KNN and SVM.

Key words: document categorization;data mining;rough set;concept lattice;categorization rule

周〓顽，周才学. 基于扩展概念格模型的文本分类规则提取的研究[J]. J4, 2010, 32(8): 98-100.

ZHOU Wan,ZHOU Caixue. Research on the Extracting Rules of Text Categorization Based on the Extended Concept Lattice Model[J]. J4, 2010, 32(8): 98-100.

[1]	冯兴杰, 曹若轩. 融合特征投影和负监督的文本分类[J]. 计算机工程与科学, 2024, 46(10): 1864-1874.
[2]	肖新正, 黄瑞章, 陈艳平, 秦永彬, 宋玉梅, 周裕林, . Corrective-Net：面向多标签文本分类的标签关联学习模块[J]. 计算机工程与科学, 2024, 46(06): 1092-1100.
[3]	高珊, 李世杰, 蔡志平. 基于深度学习的中文文本分类综述[J]. 计算机工程与科学, 2024, 46(04): 684-692.
[4]	赵琰, 马慧芳, 王文涛, 童海斌, 贺相春. 可靠响应表示增强的知识追踪方法[J]. 计算机工程与科学, 2024, 46(03): 535-544.
[5]	肖振国, 陈林书, 孙少杰, 梅本霞, 柳媛慧, 赵磊. 基于代数粒的聚类方法[J]. 计算机工程与科学, 2024, 46(01): 150-158.
[6]	杨春霞, 马文文, 徐奔, 韩煜, . 融合标签信息的分层图注意力网络文本分类模型[J]. 计算机工程与科学, 2023, 45(11): 2018-2026.
[7]	雷轩, 程光, 张玉健, 郭靓, 张付存. 基于电力网络态势感知平台的告警信息关联分析[J]. 计算机工程与科学, 2023, 45(07): 1197-1208.
[8]	许浪, 李代伟, 张海清, 唐聃, 何磊, 于曦. 基于神经网络的医疗文本分类研究[J]. 计算机工程与科学, 2023, 45(06): 1116-1122.
[9]	梅侠峰, 吴晓鸰, 黄泽民, 凌捷. 融合RoBERTa的多尺度语义协同专利文本分类模型[J]. 计算机工程与科学, 2023, 45(05): 903-910.
[10]	王晨宇, 温浩珉, 郭晟楠, 林友芳, 万怀宇, . 面向快递员揽收到达时间预测的多任务深度时空网络[J]. 计算机工程与科学, 2023, 45(01): 136-144.
[11]	程小刚, 郭韧, 周长利, . 基于理性密码学的分布式隐私保护数据挖掘框架[J]. 计算机工程与科学, 2022, 44(10): 1781-1787.
[12]	王文涛, 马慧芳, 舒跃育, 贺相春. 基于上下文表示的知识追踪方法[J]. 计算机工程与科学, 2022, 44(09): 1693-1701.
[13]	骆公志, 陈佳馨. 多源覆盖信息系统下的加权广义多粒度粗糙集模型及其应用[J]. 计算机工程与科学, 2021, 43(12): 2231-2237.
[14]	李雨晨, 魏巍, 白伟明, 王达. 基于标签共现关系的多标签特征选择[J]. 计算机工程与科学, 2021, 43(11): 2049-2055.
[15]	刘云, 肖添. 网络日志数据中条件因果挖掘算法的优化研究[J]. 计算机工程与科学, 2021, 43(09): 1584-1590.

基于扩展概念格模型的文本分类规则提取的研究

Research on the Extracting Rules of Text Categorization Based on the Extended Concept Lattice Model

PDF

可视化

摘要/Abstract

引用本文

使用本文

相关文章 15

编辑推荐

Metrics

本文评价