• 中国计算机学会会刊
  • 中国科技核心期刊
  • 中文核心期刊

J4 ›› 2011, Vol. 33 ›› Issue (1): 143-149.doi: 10.3969/j.issn.1007130X.2011.

• 论文 • 上一篇    下一篇

社区问答服务中的问题分类任务研究

王君泽,黄本雄,胡广,温杰   

  1. (华中科技大学电子与信息工程系,湖北 武汉 430074)
  • 收稿日期:2009-12-21 修回日期:2010-04-17 出版日期:2011-01-25 发布日期:2011-01-25
  • 通讯作者: 王君泽
  • 作者简介:王君泽(1982),男,河北邢台人,博士,研究方向为数据挖掘、信息检索、社会计算。黄本雄(1966),男,湖北武汉人,博士,博士生导师,研究方向为通信理论和信号处理。胡广(1977),男,河南郑州人,研究方向为高性能计算。温杰(1982),男,山西灵石人,研究方向为信息安全、用户行为分析和CyberI。
  • 基金资助:

    国家科技重大专项基金资助项目(2009ZX0300400404)

A Study of the Question Classification Task in CommunityBased Q&A Services

WANG Junze,HUANG Benxiong,HU Guang,WEN Jie   

  1. (Department of Electronics and Information Engineering,
    Huazhong University of Science and Technology,Wuhan 430074,China)
  • Received:2009-12-21 Revised:2010-04-17 Online:2011-01-25 Published:2011-01-25

摘要:

类似“百度知道”这类社区问答服务系统的主要任务之一是对问题进行分类,以便于对用户的提问进行组织。社区问答服务的实际应用需求对问题分类算法提出了高准确性、小计算量、对噪音数据敏感度低等要求。基于KullbackLeibler Distance的分类算法在大规模文本和高维向量分类任务中表现出较高的分类精度,本文在该分类算法的基础上,结合语言模型的思想,提出一种改进的分类算法:ngram KLD。通过在一个大尺度的问答对数据集合上进行的一系列实验,表明ngram KLD算法在问题分类任务中取得了优于传统算法的分类效果,并且在计算复杂度以及对噪声数据敏感度方面都较好地满足了问题分类任务的要求。

关键词: 短文本分类, KullbackLeibler Distance, 语言模型

Abstract:

In Communitybased Q&A services(referred to as cQA) such as Baidu Zhidao, question classification is one of the crucial tasks and it is important to organize the questions submitted to the cQA system. The question categorization algorithm for the cQA service needs to get high accuracy, low computation and lowsensitivity to noise. Based on the kullbackLeibler distance classification algorithm, this paper introduces a new question classification approach adopting the idea of language model, named ngram KLD. The experimental results with a large corpus which contains more than 1 million questionanswer pairs show a significant improvement when the ngram KLD algorithm is used. And the ngram KLD algorithm is fit for the actual demand of the question classification task in the cQA service.

Key words: short text classification;KullbackLeibler Distance;language model