基于统计方法的Web新词分词方法研究

doi:10.3969/j.issn.1007130X.2010.

J4 ›› 2010, Vol. 32 ›› Issue (5): 133-135.doi: 10.3969/j.issn.1007130X.2010.

基于统计方法的Web新词分词方法研究

张敏,王春红

(运城学院计算机科学与技术系,山西运城 044000)

收稿日期:2009-09-13 修回日期:2009-11-10 出版日期:2010-04-28 发布日期:2010-05-11
通讯作者: 张敏 E-mail:ycuzhm@126.com
作者简介:张敏 (1978)，男，安徽巢湖人，硕士，讲师,研究方向为搜索引擎和信息处理；王春红，副教授，研究方向为数据库应用和网络信息系统。
基金资助:
山西省高等学校科技开发项目（20091150）;运城学院项目（JC2009009）

Study on New Words of Web Based on Statistical Word Segmentation

ZHANG Min,WANG Chunhong

（Department of Computer Science and Technology,Yuncheng University,Yuncheng 044000,China）

Received:2009-09-13 Revised:2009-11-10 Online:2010-04-28 Published:2010-05-11

摘要/Abstract

摘要： 本文对信息处理技术中各种分词方法进行了研究，针对目前分词方法无法识别网络中不断出现的新词，设计了一种新的基于统计的分词方法。该方法避开现有的分词方法中的复杂语法规则，无需词典的支持，很好地解决了新词不断出现的问题，而且分词速度快，具有重要的理论和实用价值。

关键词: 统计分词, 词典, 特征提取

Abstract: This paper analyzes the various segmentation methods in the information processing technology.In view of the current segmentation methods in the network which do not recognize the new emerging words,we design a new subword method based on statistics. This method avoids complex grammar and rules, needs no enormous support from dictionaries, and resolves the problems brought by the new words. So we conclude that this method has better exactness and is very pragmatic and powerful in practical operations.

Key words: web;statistical word segmentation;dictionary;feature selection

中图分类号:

TP391

张敏,王春红. 基于统计方法的Web新词分词方法研究[J]. J4, 2010, 32(5): 133-135.

ZHANG Min,WANG Chunhong. Study on New Words of Web Based on Statistical Word Segmentation[J]. J4, 2010, 32(5): 133-135.

[1]	于致远, 宋慧慧, . 用于遥感图像时空融合的多尺度全聚合网络[J]. 计算机工程与科学, 2025, 47(05): 864-874.
[2]	朱西平, 高昂, 肖丽娟. 融合双词典的农作物病虫害命名实体识别[J]. 计算机工程与科学, 2025, 47(04): 718-727.
[3]	王宇飞, 刘强, 张唯贞, 伍晓洁, 李佳雯, 王煜恒. rtTorTIM：基于多模态特征融合和Stacking集成学习的实时Tor流量识别方法#br#[J]. 计算机工程与科学, 2025, 47(02): 238-246.
[4]	徐捷, 邵玉斌, 杜庆治, 龙华, 马迪南. 结合混合特征提取与深度学习的长文本语义相似度计算[J]. 计算机工程与科学, 2024, 46(08): 1513-1520.
[5]	任晟岐, 宋伟. 基于GGInformer模型的多维时间序列特征提取与预测研究[J]. 计算机工程与科学, 2024, 46(04): 590-598.
[6]	崔浩, 万亚平, 钟华, 聂明星, 肖杨. 基于LoRa设备的人体活动识别研究[J]. 计算机工程与科学, 2024, 46(01): 111-121.
[7]	张文豪, 瞿绍军. 基于双解码器结构的多尺度注意力特征融合网络的视网膜血管分割#br#[J]. 计算机工程与科学, 2023, 45(12): 2175-2185.
[8]	陈巩, 李占利, 朱莉. 多尺度深度特征融合的个人信用风险预测[J]. 计算机工程与科学, 2023, 45(12): 2265-2273.
[9]	周成江, 贾云华, 张雨宽, 禄俊. 基于FCEEMD复合筛选的故障特征提取方法[J]. 计算机工程与科学, 2023, 45(11): 2070-2077.
[10]	吕小姣, 张玉梅, 杨红红, 吴晓军, . 基于距离排序的DUPSO-DSVM民歌快速分类算法研究[J]. 计算机工程与科学, 2023, 45(10): 1874-1833.
[11]	张建伟, 周亚同, 史宝军, 何昊, 王文. 基于SSD算法的轻量化仪器表盘检测算法[J]. 计算机工程与科学, 2022, 44(08): 1418-1425.
[12]	王煦, 贾浩, 季佰军, 段湘煜. 基于词典模型融合的神经机器翻译[J]. 计算机工程与科学, 2022, 44(08): 1481-1487.
[13]	刘云, 郑文凤, 张轶. 代价约束算法对入侵检测特征提取的优化研究[J]. 计算机工程与科学, 2022, 44(03): 447-453.
[14]	谈恩民, 王晨. 基于表征学习的模拟电路故障诊断[J]. 计算机工程与科学, 2022, 44(01): 27-35.
[15]	姬子恒, 王斌. 基于深度学习的草图检索方法研究进展[J]. 计算机工程与科学, 2021, 43(12): 2190-2205.

基于统计方法的Web新词分词方法研究

Study on New Words of Web Based on Statistical Word Segmentation

PDF

可视化

摘要/Abstract

引用本文

使用本文

相关文章 15

编辑推荐

Metrics

本文评价