融合词语共现距离和类别信息的短文本特征提取方法

计算机工程与科学

融合词语共现距离和类别信息的短文本特征提取方法

马慧芳1,2，邢玉莹1，王双1，张旭鹏1

（1.西北师范大学计算机科学与工程学院，甘肃兰州 730070;

2.桂林电子科技大学广西可信软件重点实验室,广西桂林 541004）

收稿日期:2017-01-03 修回日期:2017-05-26 出版日期:2018-09-25 发布日期:2018-09-25
基金资助:
国家自然科学基金（61762078,61363058）；广西可信软件重点实验室研究课题(kx201705);2016年甘肃省大学生创新创业训练计划项目(201610736040,201610736041)

A short text feature extraction method combining

term co-occurrence distance and category information

MA Huifang1,2，XING Yuying1，WANG Shuang1，ZHANG Xupeng1

(1.College of Computer Science and Engineering,Northwest Normal University,Lanzhou 730070;

2.Gangxi Key Laboratory of Trused Software,Guilin University of Electronic Technology,Guilin 541004,China)

Received:2017-01-03 Revised:2017-05-26 Online:2018-09-25 Published:2018-09-25

摘要/Abstract

摘要：

针对传统特征加权方法未充分考虑词语之间的语义信息和类别分布信息的不足，提出了一种融合词语共现距离和类别信息的短文本特征提取方法。一方面，将同一短文本中两个词语之间的间隔词数作为共现距离，计算它们之间的相关度。通过计算这两个词语共同出现的频率，得到每个词的关联权重；另一方面，利用改进的期望交叉熵计算某个词在某个类别中的权重值，将两者整合，得到某个类别中所有词的权重值。对所有类别中的词按权重值的大小进行降序排序，选取前K个词作为新的特征词项集合。实验表明，该方法能够有效提高短文本特征提取的效果。

关键词: 短文本, 共现距离, 期望交叉熵, 特征提取

Abstract:

Aiming at the problem that the traditional feature weighting methods do not fully consider the semantic information and category distribution information between terms, a short text feature extraction method combining term cooccurrence distance and category information is proposed. On the one hand, the number of terms between two terms in the same short text is taken as the cooccurrence distance, and the correlation weight between them is calculated. On the other hand, the improved expected cross entropy is used to calculate the weight value of a term in a certain category. They are integrated to obtain the weight value of all the terms in a certain category. The terms in all categories are sorted in descending order according to their weight values, and the top K terms are selected as the new feature term set. Experiments show that our method can improve the effect of short text feature extraction.

Key words: short text, co-occurrence distance, expected cross entropy, feature extraction

马慧芳1,2，邢玉莹1，王双1，张旭鹏1. 融合词语共现距离和类别信息的短文本特征提取方法[J]. 计算机工程与科学.

MA Huifang1,2，XING Yuying1，WANG Shuang1，ZHANG Xupeng1.

A short text feature extraction method combining

term co-occurrence distance and category information

[J]. Computer Engineering & Science.

编辑推荐

Metrics

阅读次数

全文

246

HTML			PDF

最新录用	在线预览	正式出版	最新录用	在线预览	正式出版
0	0	0	246	0	0

来源	本网站	其他网站

次数	199	47
比例	81%	19%

摘要

最新录用	在线预览	正式出版

78	0	0

	来源	本网站

	次数	79
	比例	100%

[1]	徐捷, 邵玉斌, 杜庆治, 龙华, 马迪南. 结合混合特征提取与深度学习的长文本语义相似度计算[J]. 计算机工程与科学, 2024, 46(08): 1513-1520.
[2]	王钦晨, 段利国, 王君山, 张昊妍, 郜浩. 基于BERT字句向量与差异注意力的短文本语义匹配策略[J]. 计算机工程与科学, 2024, 46(07): 1321-1330.
[3]	任晟岐, 宋伟. 基于GGInformer模型的多维时间序列特征提取与预测研究[J]. 计算机工程与科学, 2024, 46(04): 590-598.
[4]	崔浩, 万亚平, 钟华, 聂明星, 肖杨. 基于LoRa设备的人体活动识别研究[J]. 计算机工程与科学, 2024, 46(01): 111-121.
[5]	张文豪, 瞿绍军. 基于双解码器结构的多尺度注意力特征融合网络的视网膜血管分割#br#[J]. 计算机工程与科学, 2023, 45(12): 2175-2185.
[6]	陈巩, 李占利, 朱莉. 多尺度深度特征融合的个人信用风险预测[J]. 计算机工程与科学, 2023, 45(12): 2265-2273.
[7]	周成江, 贾云华, 张雨宽, 禄俊. 基于FCEEMD复合筛选的故障特征提取方法[J]. 计算机工程与科学, 2023, 45(11): 2070-2077.
[8]	吕小姣, 张玉梅, 杨红红, 吴晓军, . 基于距离排序的DUPSO-DSVM民歌快速分类算法研究[J]. 计算机工程与科学, 2023, 45(10): 1874-1833.
[9]	张建伟, 周亚同, 史宝军, 何昊, 王文. 基于SSD算法的轻量化仪器表盘检测算法[J]. 计算机工程与科学, 2022, 44(08): 1418-1425.
[10]	刘云, 郑文凤, 张轶. 代价约束算法对入侵检测特征提取的优化研究[J]. 计算机工程与科学, 2022, 44(03): 447-453.
[11]	谈恩民, 王晨. 基于表征学习的模拟电路故障诊断[J]. 计算机工程与科学, 2022, 44(01): 27-35.
[12]	姬子恒, 王斌. 基于深度学习的草图检索方法研究进展[J]. 计算机工程与科学, 2021, 43(12): 2190-2205.
[13]	王鑫, 廖祎玮, 赵国生, 王健, 谢宝文. 一种面向任务需求的群智感知任务分配模型[J]. 计算机工程与科学, 2021, 43(08): 1512-1520.
[14]	李晓红, 王闪闪, 马堉银, 马慧芳. 融合相似度图和随机游走模型的多标签短文本分类算法[J]. 计算机工程与科学, 2021, 43(06): 1081-1087.
[15]	张永梅, 滑瑞敏, 马健喆, 胡蕾. 基于深度学习与超分辨率重建的遥感高时空融合方法[J]. 计算机工程与科学, 2020, 42(09): 1578-1586.