基于词干单元的维-哈语文本关键词提取研究

计算机工程与科学

基于词干单元的维-哈语文本关键词提取研究

沙尔旦尔·帕尔哈提，米吉提·阿不里米提，艾斯卡尔·艾木都拉

（新疆大学信息科学与工程学院，新疆乌鲁木齐 830046）

收稿日期:2019-08-04 修回日期:2019-10-23 出版日期:2020-01-25 发布日期:2020-01-25
基金资助:
国家自然科学基金（61662078）

Keyword extraction of Uyghur-Kazakh

texts based on stem units

SARDAR Parhat，MIJIT Ablimit,ASKAR Hamdulla

（College of Information Science and Engineering,Xinjiang University,Urumqi 830046,China）

Received:2019-08-04 Revised:2019-10-23 Online:2020-01-25 Published:2020-01-25

摘要/Abstract

摘要：

提出了基于词干单元的维吾尔语和哈萨克语（以下称维-哈语）文本关键词提取方法。维-哈语属于资源缺乏的派生类语言，词素结构分析和词干提取方法能有效地减少派生类语言的粒度容量，并且可以提高其覆盖率。从网上下载维-哈语文本，并切分成词素序列，用word2vec训练词干向量以分布式表示文本内容，再用TF-IDF算法对其词干向量进行加权处理。根据训练集关键词干向量和测试集词干向量相似度来提取关键词。实验结果表明，基于词素切分及词干向量表示的方法是在维-哈语等派生类语言关键词提取任务中的重要步骤，通过这个步骤，能够提高关键词提取的准确率。

关键词: 维-哈语, 词干向量, 关键词提取, 形态学

Abstract:

A keywords extraction method of Uyghur and Kazakh (Uyghur-Kazakh) texts based on stem units is proposed. Uyghur-Kazakh is a derivative language lacking resources. Morpheme structure analysis and stem extraction can effectively reduce the granularity capacity and improve the coverage of derivative languages. In this paper, Uyghur-Kazakh texts are downloaded from the Internet and segmented into morpheme sequences. word2vec is used to train stem vectors to represent text content in a distributed way. Then, TF-IDF (Term Frequency-Inverse Document Frequency) algorithm is used to weight the stem vectors. Keywords are extracted by using the keyword vector of training set and the stem vector similarity of testing set. The experimental results show that the proposed method based on morpheme segmentation and stem vector representation are the important steps and has more excellent performance in the extraction of keywords from derivative languages like Uygur-Kazakh.

Key words: Uyghur-Kazakh, stem vector, keyword extraction, morphology

沙尔旦尔·帕尔哈提，米吉提·阿不里米提，艾斯卡尔·艾木都拉. 基于词干单元的维-哈语文本关键词提取研究[J]. 计算机工程与科学.

SARDAR Parhat，MIJIT Ablimit,ASKAR Hamdulla.

Keyword extraction of Uyghur-Kazakh

texts based on stem units

[J]. Computer Engineering & Science.

[1]	张露文, 薛晓军, 李恒, 王海瑞, 张国银, 赵磊. 基于改进NLM的PCB图像去噪算法[J]. 计算机工程与科学, 2021, 43(09): 1608-1615.
[2]	蔡衡1,2,3，楚恒1,2,4，单德明1,2,3. 基于ELM的遥感影像城市道路提取[J]. 计算机工程与科学, 2020, 42(01): 125-130.
[3]	任小康，陈培林. 基于广义回归神经网络的壁画修复研究[J]. 计算机工程与科学, 2017, 39(10): 1884-1889.
[4]	安静，张贵仓，刘燕妮. 基于多尺度top-hat变换的自适应彩色图像增强[J]. 计算机工程与科学, 2017, 39(07): 1317-1321.
[5]	阮志毅，沈有建，刘凤玲. 基于数学形态学的模糊集理论在车牌字符识别中的运用[J]. J4, 2016, 38(03): 562-568.
[6]	曹岩. 基于形态学梯度重建的车牌定位方法[J]. J4, 2015, 37(07): 1372-1380.
[7]	陈为龙1,2，郭黎3. 一种基于膨胀的渐进渐出图像融合算法[J]. J4, 2014, 36(07): 1347-1351.
[8]	刘汉英1，周剑勋2. 一种新的指纹图像分割算法[J]. J4, 2014, 36(06): 1137-1147.
[9]	孟婷婷，余谅，李寿敏，陈雪. 一种基于改进的形态学算子的边缘检测算法[J]. J4, 2011, 33(8): 112-118.
[10]	熊春荣1,2，黄文明2. 基于扩展数学形态学的车牌定位算法[J]. J4, 2010, 32(8): 87-89.
[11]	刘发耀，殷建平，李宽，李永. 复杂背景下PDF417条码定位研究[J]. J4, 2010, 32(6): 55-57.
[12]	杨志刚王庆. 一种基于模板匹配的汽车牌照快速定位方法[J]. J4, 2008, 30(8): 39-41.
[13]	毛玲[1] 孙即祥[1] 张国敏[2] 马桂珍[3]. 带反馈修正的多结构元形态学心电信号QRS波检测算法[J]. J4, 2007, 29(11): 60-62.
[14]	倪崇嘉[1] 刘文奇[2] 张爱英[2]. 基于数学形态学的视频图像序列中的运动目标检测[J]. J4, 2006, 28(6): 69-70.
[15]	陈素玲刘文奇. 基于粗糙集模型的形态学算子[J]. J4, 2005, 27(12): 90-91.