基于Wasserstein GAN的文档表示模型

计算机工程与科学

基于Wasserstein GAN的文档表示模型

马永军，李亚军，汪睿，陈海山

（天津科技大学计算机科学与信息工程学院，天津 300457）

收稿日期:2018-01-22 修回日期:2018-02-28 出版日期:2019-01-25 发布日期:2019-01-25
基金资助:
天津市科技计划项目（17KPXMSF00140）；天津市教委社科重大项目（2017JWZD19）

A document representation model based on Wasserstein GAN

MA Yongjun,LI Yajun,WANG Rui,CHEN Haishan

（College of Computer Science and Information Engineering，Tianjin University of Science & Technology，Tianjin 300457，China)

Received:2018-01-22 Revised:2018-02-28 Online:2019-01-25 Published:2019-01-25

摘要/Abstract

摘要：

文档表示模型可以将非结构化的文本数据转化为结构化数据，是多种自然语言处理任务的基础，而目前基于词的模型在文档表示任务中有着无法直接表示文档的缺陷。针对此问题，基于生成对抗网络GAN可以使用两个神经网络进行对抗学习，从而很好地学习到原始数据分布的特点，
提出了文档表示模型WADM，使用去噪自编码器作为其判别网络，由其隐层直接得到文档的分布表示。实验表明，WADM能够准确抽取文档特征，相比基于词的模型具有更强的文档表示能力。

关键词: 文档表示, 生成对抗网络, 去噪自编码器, 神经网络

Abstract:

Document representation models can convert unstructured text data into structured data, which is the basis of many natural language processing tasks. Currently, wordbased models cannot deal with unregistered words and documents in the document representation tasks. The generative adversarial network (GAN) can use two neural networks to deal with confrontation so as to learn the distribution of the original data well. We propose a Wasserstein adversarial document model (WADM), which uses denoising autoencoder as its discriminant network and obtains document representation directly by its hidden layer. Experiments show that the WADM can extract document features accurately and has stronger document representation capability than word-based models.

Key words: document representation, generative adversarial network(GAN), denoising autoencoder, neural network

马永军，李亚军，汪睿，陈海山. 基于Wasserstein GAN的文档表示模型[J]. 计算机工程与科学.

MA Yongjun,LI Yajun,WANG Rui,CHEN Haishan. A document representation model based on Wasserstein GAN[J]. Computer Engineering & Science.

编辑推荐

Metrics

阅读次数

全文

196

HTML			PDF

最新录用	在线预览	正式出版	最新录用	在线预览	正式出版
0	0	0	196	0	0

来源	本网站	其他网站

次数	172	24
比例	88%	12%

摘要

109

最新录用	在线预览	正式出版

109	0	0

	来源	本网站

	次数	109
	比例	100%

[1]	沈凡凡, 汤星译, 张军, 徐超, 陈勇, 何炎祥. 基于改进萤火虫算法和长短期记忆网络的恶意行为检测方法[J]. 计算机工程与科学, 2024, 46(12): 2158-2170.
[2]	毛润泽, 吴子恒, 徐嘉阳, 章严, 陈帜, . DeepFlame：基于深度学习和高性能计算的反应流模拟开源平台[J]. 计算机工程与科学, 2024, 46(11): 1901-1907.
[3]	徐欣, 李若诗, 袁野, 刘娜. 基于可学习图像滤波器的雾天驾驶场景图像语义分割[J]. 计算机工程与科学, 2024, 46(11): 2027-2034.
[4]	付燕, 杨旭, 叶鸥. 基于CNN和Transformer特征融合的烟雾识别方法[J]. 计算机工程与科学, 2024, 46(11): 2045-2052.
[5]	段成龙, 袁杰, 常乾坤, 张宁宁. 基于D2GA的逆强化学习算法[J]. 计算机工程与科学, 2024, 46(11): 2053-2062.
[6]	陈子雄, 陈旭, 景永俊, 宋吉飞. 基于图神经网络的源代码漏洞检测研究综述[J]. 计算机工程与科学, 2024, 46(10): 1775-1792.
[7]	陈昌奉, 赵宏州, 周恺卿. 基于图神经网络的代码抄袭检测方法[J]. 计算机工程与科学, 2024, 46(10): 1815-1824.
[8]	张悦, 张磊, 刘佰龙, 梁志贞, 张雪飞. 基于时空Transformer的多空间尺度交通预测模型[J]. 计算机工程与科学, 2024, 46(10): 1852-1863.
[9]	王鹏, 张嘉诚, 范毓洋, . 适应于硬件部署的神经网络剪枝量化算法[J]. 计算机工程与科学, 2024, 46(09): 1547-1553.
[10]	袁佳伟, 赵进. 基于图神经网络的OMCI模型相似性计算[J]. 计算机工程与科学, 2024, 46(09): 1576-1586.
[11]	周祺, 周宁宁. 神经网络增强的成对双线性因子分解机[J]. 计算机工程与科学, 2024, 46(09): 1648-1659.
[12]	吴斯琦, 赵清华, 于雨晨. 基于元学习的图神经网络冷启动推荐[J]. 计算机工程与科学, 2024, 46(09): 1675-1684.
[13]	李猛, 刘姿邑, 宋宇航. 基于双重自表达与最大熵原理的深度子空间聚类算法[J]. 计算机工程与科学, 2024, 46(09): 1685-1692.
[14]	黄至锐, 贾心茹, 朱浩哲, 陈迟晓, . 基于SRAM缓存和存内计算的低功耗关键词唤醒系统[J]. 计算机工程与科学, 2024, 46(08): 1331-1339.
[15]	辛高枫, 刘玉潇, 张青龙, 韩锐, 刘驰. 边缘侧神经网络块粒度领域自适应技术研究[J]. 计算机工程与科学, 2024, 46(08): 1361-1371.