首页 | 本学科首页   官方微博 | 高级检索  
     

基于Wasserstein GAN的文档表示模型
引用本文:马永军,李亚军,汪睿,陈海山.基于Wasserstein GAN的文档表示模型[J].计算机工程与科学,2019,41(1):161-165.
作者姓名:马永军  李亚军  汪睿  陈海山
作者单位:天津科技大学计算机科学与信息工程学院,天津,300457;天津科技大学计算机科学与信息工程学院,天津,300457;天津科技大学计算机科学与信息工程学院,天津,300457;天津科技大学计算机科学与信息工程学院,天津,300457
基金项目:天津市科技计划项目(17KPXMSF00140);天津市教委社科重大项目(2017JWZD19)
摘    要:文档表示模型可以将非结构化的文本数据转化为结构化数据,是多种自然语言处理任务的基础,而目前基于词的模型在文档表示任务中有着无法直接表示文档的缺陷。针对此问题,基于生成对抗网络GAN可以使用两个神经网络进行对抗学习,从而很好地学习到原始数据分布的特点,提出了文档表示模型WADM,使用去噪自编码器作为其判别网络,由其隐层直接得到文档的分布表示。实验表明,WADM能够准确抽取文档特征,相比基于词的模型具有更强的文档表示能力。

关 键 词:文档表示  生成对抗网络  去噪自编码器  神经网络
收稿时间:2018-01-22
修稿时间:2019-01-25

A document representation model based on Wasserstein GAN
MA Yong jun,LI Ya jun,WANG Rui,CHEN Hai shan.A document representation model based on Wasserstein GAN[J].Computer Engineering & Science,2019,41(1):161-165.
Authors:MA Yong jun  LI Ya jun  WANG Rui  CHEN Hai shan
Affiliation:(College of Computer Science and Information Engineering,Tianjin University of Science & Technology,Tianjin 300457,China)  
Abstract:Document representation models can convert unstructured text data into structured data, which is the basis of many natural language processing tasks. Currently, word based models cannot deal with unregistered words and documents in the document representation tasks. The generative adversarial network (GAN) can use two neural networks to deal with confrontation so as to learn the distribution of the original data well. We propose a Wasserstein adversarial document model (WADM), which uses denoising autoencoder as its discriminant network and obtains document representation directly by its hidden layer. Experiments show that the WADM can extract document features accurately and has stronger document representation capability than word-based models.
Keywords:document representation  generative adversarial network(GAN)  denoising autoencoder  neural network  
本文献已被 万方数据 等数据库收录!
点击此处可从《计算机工程与科学》浏览原始摘要信息
点击此处可从《计算机工程与科学》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号