摘要:
藏文句子的边界识别是藏文文本分析的基础性研究, 是藏文与其他语种之间建立句子级平行语料库的必要工作,也是进一步进行藏汉机器翻译的基础。本文通过分析藏文句子的结束形式, 研究藏文句子边界规则,提出了一种藏文句子的边界识别方法。该方法首先利用特殊规则和词表对藏文句子进行识别,然后利用最大熵模型对有歧义的句子进一步识别。从而提高藏文句子的边界识别率。
才藏太. 基于最大熵分类器的藏文句子边界自动识别方法研究[J]. J4, 2012, 34(6): 187-190.
CAI Zangtai. Research on the Automatic Identification of Tibetan Sentence Boundaries with Maximum Entropy Classifier[J]. J4, 2012, 34(6): 187-190.