• 中国计算机学会会刊
  • 中国科技核心期刊
  • 中文核心期刊

J4 ›› 2004, Vol. 26 ›› Issue (5): 56-61.

• 论文 • 上一篇    下一篇

一种基于粗糙集的大规模语料库语言学知识发现模型

陈清才 王晓龙 赵健   

  • 出版日期:2004-05-01 发布日期:2010-07-04

  • Online:2004-05-01 Published:2010-07-04

摘要:

文中首先通过语言学特征表来对文本信息进行结构化处理,同时实现了对远距离约束的表示;然后借助于面向个体的数据泛化算法来去除语言学特征表中的冗余信息,并利用规则抽取算法过滤特征表中不一致的部分,从而为相应的自然语言处理任务建立了一个一致、高效的规则库。最后,本文研究了模型在汉语词义排歧以及音字转换中的应用,在采用了动态规则平滑算法后,分别获得了0.93和0.95的判别精度以及0.92和0.89的覆盖率,这一结果显示模型具有很高的实用性。

关键词: 浯言学知识发现 粗糙集 自动排歧 汉语音字转换 音字转换 动态规则平滑算法