首页 | 本学科首页   官方微博 | 高级检索  
     

一种基于混合词向量的胶囊网络文本分类方法
引用本文:王弘中,刘漳辉,郭昆.一种基于混合词向量的胶囊网络文本分类方法[J].小型微型计算机系统,2020(1):218-224.
作者姓名:王弘中  刘漳辉  郭昆
作者单位:福州大学数学与计算机科学学院;福建省网络计算与智能信息处理重点实验室;空间数据挖掘与信息共享教育部重点实验室
基金项目:国家自然科学基金项目(61300104,61300103,61672158)资助;福建省高校杰出青年科学基金项目(JA12016)资助;福建省高等学校新世纪优秀人才支持计划项目(JA13021)资助;福建省杰出青年科学基金项目(2014J06017,2015J06014)资助;福建省科技创新平台计划项目(2009J1007,2014H2005)资助;福建省自然科学基金项目(2013J01230,2014J01232,2018J01795)资助;福建省高校产学合作项目(2014H6014,2017H6008)资助;海西政务大数据应用协同创新中心项目(KJ2015-05)资助
摘    要:文本分类是目前深度学习方法被广泛应用的重要领域之一.本文设计了一种基于循环神经网络和胶囊网络的混合模型,使用胶囊网络来克服卷积神经网络对空间不敏感的缺点,学习文本局部与整体之间的关系特征,并使用循环神经网络中的GRU神经网络经过最大池化层来学习上下文显著信息特征,结合两者来优化特征提取过程从而提高文本分类效果.与此同时,在嵌入层中提出了一种基于缺失词补全的混合词向量方法,采用两种策略来减少缺失词过度匹配的现象以及降低词向量中的噪声数据出现的概率,从而获得语义丰富且少噪声的高质量词向量.在经典文本分类数据集中进行实验,通过与对比模型的最优方法进行比较,证明了该模型和方法能有效地提升文本分类准确度.

关 键 词:文本分类  深度学习  胶囊网络  混合词向量  Fasttext词向量

Capsule Network Model Based on Mixed Word Embedding for Text Classification
WANG Hong-zhong,LIU Zhang-hui,GUO Kun.Capsule Network Model Based on Mixed Word Embedding for Text Classification[J].Mini-micro Systems,2020(1):218-224.
Authors:WANG Hong-zhong  LIU Zhang-hui  GUO Kun
Affiliation:(College of Mathematics and Computer Sciences,Fuzhou University,Fuzhou 350116,China;Fujian Provincial Key Laboratory of Network Computing and Intelligent Information Processing,Fuzhou 350116,China;Key Laboratory of Spatial Data Mining&Information Sharing,Ministry of Education,Fuzhou 350116,China)
Abstract:Text categorization is an important field in which deep learning methods are widely used.In this paper,we design a hybrid model based on recurrent neural network and capsule network to classify texts.The capsule network is used to overcome the shortcomings of convolutional neural networks to space insenivity.Learning the relationship between local text and global text,and the GRU neural network through the maxpool layer to extract the context significant information features,and then combines the advantages of both to improve the text classification effect.At the same time,we proposed a hybrid word embedding method based on missing word completion in the embedding layer.Two strategies are adopted to solve the missing word overmatch problem and reduce the probability of noise data generation in the word embedding,in order to obtain a high quality word embedding with rich semantics and less noise.Experiments conducted on challenging text classification datasets showour model and method can achieve competitive accuracy compared to the state-of-the-art approaches.
Keywords:text classification  deep learning  capsule network  mixed word embedding  fasttext word embedding
本文献已被 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号