杨美妮1,何涛2,沈静1,张建军1
YANG Mei-ni1,HE Tao2,SHEN Jing1,ZHANG Jian-jun1
摘要:
传统的命名实体识别任务多见于人名、地名、机构名这些普通的命名实体,且大多采用规则文本进行研究。随着电子商务和互联网广告的不断发展,如何从用户的各种不规则的上下文信息中自动识别出商品名称这一特殊的命名实体成为了一个需要解决的问题。为了解决这一问题,建立了一个最大熵模型用于识别论坛发帖这种不规则文本中的商品名称,并探讨了多种特征对于识别效果的影响。这些特征不仅包括传统命名实体识别方法中所使用的局部特征和布朗聚类特征,还包括词的分布式表示这种比较新颖的特征。这些特征按照各种不同的方式进行组合作为模型的输入。在CPROD01评测数据集上的实验结果表明,布朗聚类特征能够有效地提高商品名称识别系统的准确性。