计算机工程与科学 ›› 2021, Vol. 43 ›› Issue (12): 2238-2242.
线岩团1,2,张志菊1,2,王红斌1,2 ,文永华1,2
XIAN Yan-tuan1,2,ZHANG Zhi-ju1,2,WANG Hong-bin1,2,WEN Yong-hua1,2#br#
摘要: 泰文很少运用标点符号,句子间没有明显的分隔符,需要根据语义进行断句,为泰文词法分析、句法分析和机器翻译等自然语言处理任务带来了额外的困难。针对泰文断句问题提出一种基于Siamese循环神经网络的句子自动切分方法。相比传统泰文断句方法,该方法无需人工定义特征,而是采用统一的循环神经网络分别对候选断句点前后的词序列进行编码;然后,通过综合前后词序列的编码向量作为特征来构建泰文句子切分模型。在ORCHID泰文语料上的实验结果表明,所提出的方法优于传统泰文句子切分方法。