摘要:
自动分词是自然语言处理的关键基础技术。针对传统泰语统计分词方法特征模板复杂、搜索空间大的问题,提出融合上下文字符信息的泰语神经网络分词模型。该模型借助词分布表示方法,训练泰语字符表示向量,利用多层神经网络分类器实现泰语分词。基于InterBEST 2009泰语分词评测语料的实验结果表明,所提方法相较于条件随机场分词模型、Character-Cluster Hybrid 分词模型以及 GLR and N-gram 分词模型取得了更好的分词效果,分词准确率、召回率和F值分别达到了97.27%、99.26 %及98.26 %,相比条件随机场分词速度提高了112.78%。
陶广奉,线岩团,王红斌,汪淑娟. 融合上下文字符信息的泰语神经网络分词方法[J]. 计算机工程与科学.
TAO Guang-feng,XIAN Yan-tuan,WANG Hong-bin,WANG Shu-juan.
A context character feature based neural
network model for Thai word segmentation
[J]. Computer Engineering & Science.