• 中国计算机学会会刊
  • 中国科技核心期刊
  • 中文核心期刊

J4 ›› 2010, Vol. 32 ›› Issue (6): 88-91.doi: 10.3969/j.issn.1007130X.2010.

• 论文 • 上一篇    下一篇

领域知识在文本聚类应用中的机遇和挑战

景丽萍,恽佳丽,于剑   

  1. (北京交通大学计算机与信息技术学院,北京 100044)
  • 收稿日期:2009-09-06 修回日期:2009-12-10 出版日期:2010-06-01 发布日期:2010-06-01
  • 通讯作者: 景丽萍 E-mail:lpjing@bjtu.edu.cn
  • 作者简介:景丽萍(1978),女,河南南阳人,博士,讲师,研究方向为文本挖掘、领域知识、生物信息学和聚类算法;恽佳丽,博士生,研究方向为文本挖掘和领域知识;于剑,教授,博士生导师,研究方向为机器学习和图像处理等。
  • 基金资助:

     国家973计划资助项目(2007CB311002);国家自然科学基金资助项目(90820013,60875031,60905028)

 Domain Knowledge in Text Mining:Opportunities and Challenges

JING Liping,YUN Jiali,YU Jian   

  1. (School of Computer and Information Technology,Beijing Jiaotong University,Beijing 100044,China)
  • Received:2009-09-06 Revised:2009-12-10 Online:2010-06-01 Published:2010-06-01

摘要:

最近几年,越来越多学者意识到单靠数据驱动的无监督聚类方法很难满足用户对富含语义信息的文本数据的处理需求。领域知识,如领域本体的人工或自动构建、百科全书Wikipedia的网上公布为文本处理带来了新的希望和美好的前景。本文主要阐述领域知识在文本聚类过程中的具体应用、研究现状和所面临的挑战。

关键词: 领域知识, 文本聚类, 知识表示, 文本表示模型

Abstract:

Recently, more and more researchers realize that it is hard to satisfy the users’ needs of the datadriven unsupervised learning methods in text data analysis. Fortunately, the appearance of domain knowledge provides a bright future for this problem. Domain knowledge, at present, is usually represented as ontology hierarchy (built artificially) or encyclopedia (e.g., online Wikipedia). In this paper, we describe how the domain knowledge is used in processing text mining, review the related work,and point out the challenges in this research direction.

Key words: domain knowledge;text mining;knowledge representation;text representation model

中图分类号: