一种结合关键词与共现词对的向量空间模型

J4 ›› 2014, Vol. 36 ›› Issue (05): 971-976.

一种结合关键词与共现词对的向量空间模型

唐守忠，齐建东

（北京林业大学信息学院，北京 100083）

收稿日期:2013-02-25 修回日期:2013-04-24 出版日期:2014-05-25 发布日期:2014-05-25
基金资助:
十二五科技支撑课题（2011BAH10B04）

Vector space model based on keywords
and cooccurrence word pairs

TANG Shouzhong，QI Jiandong

（School of Information,Beijing Forestry University,Beijing 100083,China）

Received:2013-02-25 Revised:2013-04-24 Online:2014-05-25 Published:2014-05-25

摘要/Abstract

摘要：

提出了一种结合关键词特征和共现词对特征的向量空间模型。首先，通过分词和去除停用词提取文本中的候选关键词，利用文本频率筛选关键词特征。然后，基于获得的关键词特征两两构造候选共现词对，定义支持度和置信度筛选共现词对特征。最后，结合关键词特征和共现词对特征构建向量空间模型。文本分类实验结果表明，提出的模型具有更强的文本分类能力。

关键词: 向量空间模型, 共现词对, 语义相关性, 文本分类

Abstract:

A new vector space model is proposed, which uses both keyword and cooccurrence term as the representation features of documents. Firstly, the keyword candidates are extracted from documents by segmenting texts and removing stop words,and the keyword features are filtered by document frequency.Secondly, based on the obtained keyword features, the cooccurrence word pairs are constructed,and support degree and confidence degree are defined to filter the features of cooccurrence word pairs. Finally, the keyword features and the features of cooccurrence word pairs are combined to construct the vector space model. The textclassification experiments show that the proposed model has better ability of text classification.

Key words: vector space model;cooccurrence word;semantical relationship;text classification

唐守忠，齐建东. 一种结合关键词与共现词对的向量空间模型[J]. J4, 2014, 36(05): 971-976.

TANG Shouzhong，QI Jiandong. Vector space model based on keywords
and cooccurrence word pairs [J]. J4, 2014, 36(05): 971-976.

编辑推荐

Metrics

阅读次数

全文

158

HTML			PDF

最新录用	在线预览	正式出版	最新录用	在线预览	正式出版
0	0	0	0	0	158

来源	本网站	其他网站

次数	132	26
比例	84%	16%

摘要

103

最新录用	在线预览	正式出版

0	0	103

	来源	本网站

	次数	103
	比例	100%

[1]	冯兴杰, 曹若轩. 融合特征投影和负监督的文本分类[J]. 计算机工程与科学, 2024, 46(10): 1864-1874.
[2]	肖新正, 黄瑞章, 陈艳平, 秦永彬, 宋玉梅, 周裕林, . Corrective-Net：面向多标签文本分类的标签关联学习模块[J]. 计算机工程与科学, 2024, 46(06): 1092-1100.
[3]	高珊, 李世杰, 蔡志平. 基于深度学习的中文文本分类综述[J]. 计算机工程与科学, 2024, 46(04): 684-692.
[4]	杨春霞, 马文文, 徐奔, 韩煜, . 融合标签信息的分层图注意力网络文本分类模型[J]. 计算机工程与科学, 2023, 45(11): 2018-2026.
[5]	许浪, 李代伟, 张海清, 唐聃, 何磊, 于曦. 基于神经网络的医疗文本分类研究[J]. 计算机工程与科学, 2023, 45(06): 1116-1122.
[6]	梅侠峰, 吴晓鸰, 黄泽民, 凌捷. 融合RoBERTa的多尺度语义协同专利文本分类模型[J]. 计算机工程与科学, 2023, 45(05): 903-910.
[7]	文武, 万玉辉, 张许红, 文志云, . 基于改进CHI和PCA的文本特征选择[J]. 计算机工程与科学, 2021, 43(09): 1645-1652.
[8]	张丽, 马静. 融合词语统计特征和语义信息的文本分类方法研究[J]. 计算机工程与科学, 2021, 43(07): 1308-1315.
[9]	李晓红, 王闪闪, 马堉银, 马慧芳. 融合相似度图和随机游走模型的多标签短文本分类算法[J]. 计算机工程与科学, 2021, 43(06): 1081-1087.
[10]	李校林, 王成, . 一种基于质心的多标签文本分类模型研究[J]. 计算机工程与科学, 2020, 42(06): 1120-1126.
[11]	葛晓伟, 李凯霞, 程铭. 基于CNN-SVM的护理不良事件文本分类研究[J]. 计算机工程与科学, 2020, 42(01): 161-166.
[12]	黄贤英,熊李媛,刘英涛,李沁东. 基于类别特征改进的KNN短文本分类算法[J]. 计算机工程与科学, 2018, 40(01): 148-154.
[13]	刘述昌,张忠林. 基于中心向量的多级分类KNN算法研究[J]. 计算机工程与科学, 2017, 39(09): 1758-1764.
[14]	马长林，杨正良，谢罗迪. 文本分类中CTM模型的优化和可视化应用研究[J]. 计算机工程与科学, 2017, 39(03): 599-604.
[15]	马慧芳，周汝南，吉余岗，鲁小勇. 融合词语类别特征和语义的短文本分类方法[J]. 计算机工程与科学, 2017, 39(02): 399-404.