J4 ›› 2016, Vol. 38 ›› Issue (04): 800-806.
孙东普,朱鸣华,林鸿飞
SUN Dongpu,ZHU Minghua,LIN Hongfei
摘要:
专利信息抽取是专利分析的基础,属性及属性值的识别与抽取是专利信息抽取所要解决的关键问题。目前,在中文专利信息抽取领域针对属性和属性值同步抽取的研究较少。本文以中文专利摘要作为实验语料,运用统计学习知识,提出一种基于条件随机场的抽取方法。该方法将属性和属性值视为命名实体,利用语料训练得到条件随机场模型,从而实现对属性和属性值的抽取;再利用挖掘的关联规则完成属性与属性值匹配。实验结果的准确率、召回率和F值分别是80.8%、81.2%和81.0%,其表明该方法能够高效同步抽取属性和属性值。同时,在抽取结果的基础上,本文完成了对专利的分析和同类专利的比较,体现了本方法的实用价值。