计算机工程与科学 ›› 2021, Vol. 43 ›› Issue (03): 407-415.
刘亚波,吴秋轩
LIU Ya-bo,WU Qiu-xuan
摘要: 政府采购平台上的电商大数据,由于商品种类繁多且书写格式无统一规范,采用传统模型在大数据中标定出同一种商品时准确率低、速度慢、样本利用率低、泛化能力不足。提出一种基于长短时记忆网络(LSTM)的同一性标定模型,该模型由分词、重要性排序和相似度计算3个子模型串联组成。分词子模型对电商大数据进行预处理,获得有区分度的关键词序列;LSTM重要性排序子模型筛选最能表征商品信息的重要关键词序列;LSTM相似度计算子模型在给定大数据中准确标定出同一种商品。另外还引入二分查找、GloVe词向量化和词序列语义校验技术,分别用于提高标定速度、训练样本利用率与标定泛化能力。实验结果表明,在处理不同品类的电商大数据时,所提模型对易混淆样本的同一性标定准确率高。