J4 ›› 2015, Vol. 37 ›› Issue (12): 2358-2365.
张金鹏1,2,周兰江1,2,线岩团1,2,余正涛1,2,何思兰3
ZHANG Jinpeng1,2,ZHOU Lanjiang1,2,XIAN Yantuan1,2,YU Zhengtao1,2,HE Silan3
摘要:
词汇的表示问题是自然语言处理的基础研究内容。目前单语词汇分布表示已经在一些自然语言处理问题上取得很好的应用效果,然而在跨语言词汇的分布表示上国内外研究很少,针对这个问题,利用两种语言名词、动词分布的相似性,通过弱监督学习扩展等方式在中文语料中嵌入泰语的互译词、同类词、上义词等,学习出泰语词在汉泰跨语言环境下的分布。实验基于学习到的跨语言词汇分布表示应用于双语文本相似度计算和汉泰混合语料集文本分类,均取得较好效果。