• 中国计算机学会会刊
  • 中国科技核心期刊
  • 中文核心期刊

J4 ›› 2011, Vol. 33 ›› Issue (3): 159-162.doi: 10.3969/j.issn.1007130X.2011.

• 论文 • 上一篇    下一篇

藏文字频统计系统中字构件分解算法

才让卓玛,才智杰   

  1. (青海师范大学藏文信息研究中心,青海 西宁 810008)
  • 收稿日期:2010-03-25 修回日期:2010-06-03 出版日期:2011-03-25 发布日期:2011-03-25
  • 作者简介:才让卓玛(1970),女,青海乐都人,硕士,副教授,研究方向为藏文信息处理才智杰(1970),男,青海乐都人,硕士,副教授,研究方向为藏文信息处理。
  • 基金资助:

    国家社科基金资助项目(09XYY024);青海师范大学科研基金资助项目

A Decomposition Algorithm for Words Components in the Tibetan Word Frequency Statistics System

CAI Rang Zhuo Ma,CAI Zhi Jie   

  1. (Tibetan Intellectual Information Processing Centre,Qinghai Normal University,Xining 810008,China)
  • Received:2010-03-25 Revised:2010-06-03 Online:2011-03-25 Published:2011-03-25

摘要:

藏文字频统计是藏文信息处理的基础性工作,通过对藏文字的部件、音节、结构和字的频度与通用度等定量统计与定性分析,为藏文信息处理提供基础数据。藏文字是一种由藏文字构件横向和纵向组合而成的拼音文字,在藏文字频统计中不仅要从整字角度统计分析藏文字频度属性,还要统计分析构成其构件的频度及位置属性。因此,在藏文字频统计系统中要分解构成藏文字的各部件。本文通过开发藏文字频统计系统,利用组合构件库结合藏文文法提出了一种藏文字构件分解算法。经测试,该算法不仅简单易行, 而且可以有效地确定出各基本构件的位置特征,已应用于项目藏文字频统计系统。

关键词: 字频统计, 构件, 分解

Abstract:

Tibetan word frequency statistics is a basic work for Tibetan information processing. Tibetan words are combined by the components from the vertical and horizontal directions, therefore, decomposing the  Tibetan words components is the foundation to sum the attributes of such alphabetic writing. This paper is based on the development of the Tibetan word frequency statistics system, proposes a decomposition algorithm for Tibetan words, and the preliminary experiments show that this algorithm is not only simple and feasible, but also can effectively determine the location of each basic components.

Key words: word frequency statistics;component;decomposition