首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 93 毫秒
1.
传统词嵌入通常将词项的不同上下文编码至同一参数空间,造成词向量未能有效辨别多义词的语义;CNN网络极易关注文本局部特征而忽略文本时序语义,BiGRU网络善于学习文本时序整体语义,造成关键局部特征提取不足.针对上述问题,提出一种基于词性特征的CNN_BiGRU文本分类模型.引入词性特征构建具有词性属性的词性向量;将词性向量与词向量交叉组合形成增强词向量,以改善文本表示;采用CNN网络获取增强词向量的局部表示,利用BiGRU网络捕获增强词向量的全局上下文表示;融合两模型学习的表示形成深度语义特征;将该深度语义特征连接至Softmax分类器完成分类预测.实验结果表明,该模型提高了分类准确率,具有良好的文本语义建模和识别能力.  相似文献   

2.
基于词的向量空间模型是文本分类中的传统的表示文本的方法。这种表示方法的一个缺点是忽略了词之间的关系。最近一些使用潜在主题文本表示的方法,如隐含狄利克雷分配LDA (Latent Dirichlet Allocation)引起了人们的注意,这种表示方法可以处理词之间的关系。但是,只使用基于潜在主题的文本表示可能造成词信息的损失。我们使用改进的随机森林方法结合基于词的和基于LDA主题的两种文本表示方法。 对于两类特征分别构造随机森林,最终分类结果通过投票机制决定。在标准数据集上的实验结果表明,相比只使用一种文本特征的方法,我们的方法可以有效地结合两类特征,提高文本分类的性能。  相似文献   

3.
基于加权词向量和卷积神经网络的新闻文本分类   总被引:1,自引:0,他引:1  
在文本分类中,基于Word2Vec词向量的文本表示忽略了词语区分文本的能力,设计了一种用TF-IDF加权词向量的卷积神经网络(CNN)文本分类方法.新闻文本分类,一般只考虑正文,忽略标题的重要性,改进了TF-IDF计算方法,兼顾了新闻标题和正文.实验表明,基于加权词向量和CNN的新闻文本分类方法比逻辑回归分类效果有较大提高,比不加权方法也有一定的提高.  相似文献   

4.
郁友琴  李弼程 《计算机科学》2021,48(12):219-225
微博用户兴趣发现对社交网络的个性化推荐和信息传播的正确引导具有重要意义,因此提出了一种基于多粒度文本特征表示的微博用户兴趣识别方法.首先,从主题层、词序层和词汇层3个方面对微博用户构造文本向量,利用LDA提取内容的主题特征,通过LSTM学习内容的语义特征,引入腾讯AI Lab开源词向量获取词义特征;然后,将以上3种特征向量拼接得到的多粒度文本特征表示矩阵输入CNN中,进行文本分类训练;最后,通过多端输出层实现对微博用户的兴趣识别.实验结果表明,多粒度特征表示模型的分类实验结果比单粒度特征表示模型的精准率、召回率和F1值分别提高了8%,12%和13%.基于对文本粗、细语义粒度和词粒度的综合考量,结合神经网络分类算法,多粒度特征表示模型的评价指标均优于单粒度特征表示模型.  相似文献   

5.
在对中文文本进行分类的过程中,由于关键特征在整个文本中具有分布不均匀的特点,容易出现关键特征丢失的问题,降低了分类的准确性。针对这一问题,提出一种基于注意力机制的双通道文本分类模型。将输入文本通过词嵌入进行向量表示,利用Bi-LSTM通道提取文本中的上下文关联信息,利用CNN通道提取文本中连续词间的局部特征。在两个通道中均引入注意力机制进行全局权重分配,使模型能够进一步关注到文本中的关键词。在CNN通道中,将原始输入向量与各层CNN的输出向量进行选择性融合,从而实现特征重利用。在今日头条和THUCNews两个公开数据集上进行性能评估,实验结果表明,与其他分类模型相比,所提模型的分类准确率分别为97.59%、90.09%,具有更好的分类性能。  相似文献   

6.
传统的医学文本数据分类方法忽略了文本的上下文关系,每个词之间相互独立,无法表示语义信息,文本描述和分类效果差;并且特征工程需要人工干预,因此泛化能力不强。针对医疗文本数据分类效率低和精度低的问题,提出了一种基于Transformer双向编码器表示BERT、卷积神经网络CNN和双向长短期记忆BiLSTM神经网络的医学文本分类模型CMNN。该模型使用BERT训练词向量,结合CNN和BiLSTM,捕捉局部潜在特征和上下文信息。最后,将CMNN模型与传统的深度学习模型TextCNN和TextRNN在准确率、精确率、召回率和F1值方面进行了比较。实验结果表明,CMNN模型在所有评价指标上整体优于其他模型,准确率提高了1.69%~5.91%。  相似文献   

7.
针对微博短文本有效特征较稀疏且难以提取,从而影响微博文本表示、分类与聚类准确性的问题,提出一种基于统计与语义信息相结合的微博短文本特征词选择算法。该算法基于词性组合匹配规则,根据词项的TF-IDF、词性与词长因子构造综合评估函数,结合词项与文本内容的语义相关度,对微博短文本进行特征词选择,以使挑选出来的特征词能准确表示微博短文本内容主题。将新的特征词选择算法与朴素贝叶斯分类算法相结合,对微博分类语料集进行实验,结果表明,相比其它的传统算法,新算法使得微博短文本分类准确率更高,表明该算法选取出来的特征词能够更准确地表示微博短文本内容主题。  相似文献   

8.
如今,电话诈骗案件层出不穷,严重危害到了人们的财产安全和社会的和谐安定。针对社会中的一些诈骗电话问题,提出了一种基于词嵌入和混合神经网络的文本分类方法,实现对诈骗电话文本的分类。首先构造了诈骗电话文本数据集,内容涵盖了金融、教育、邮递、银行等多类诈骗事件。为了优化文本的输入词向量,词嵌入部分采用基于Transformer的BERT(Bidirectional Encoder Representation from Transformers)模型来表示诈骗文本,同时采用基于双向长短时记忆网络(Bidirectional Long Short-Term Memory, BiLSTM)以及多尺度卷积神经网络(Convolutional Neural Network, CNN)的混合神经网络(BiLCNN)对文本的词嵌入表示进行特征提取,充分提取出文本的时序特征和局部相关特征,最后将特征融合在一起通过Softmax进行分类。通过实验比较了Word2vec、ELMo(Embedding from Language Model)和BERT三种词嵌入模型,表明BERT作为输入向量的优越性,同时在诈骗...  相似文献   

9.
传统主题模型方法很大程度上依赖于词共现模式生成文档主题, 短文本由于缺乏足够的上下文信息导致的数据稀疏性成为传统主题模型在短文本上取得良好效果的瓶颈. 基于此, 本文提出一种基于语义增强的短文本主题模型, 算法将DMM (Dirichlet Multinomial Mixture)与词嵌入模型相结合, 通过训练全局词嵌入与局部词嵌入获得词的向量表示, 融合全局词嵌入向量与局部词嵌入向量计算词向量间的语义相关度, 并通过主题相关词权重进行词的语义增强计算. 实验表明, 本文提出的模型在主题一致性表示上更准确, 且提升了模型在短文本上的分类正确率.  相似文献   

10.
针对中文短文本篇幅较短、特征稀疏性等特征,提出了一种基于隐含狄利克雷分布模型的特征扩展的短文本分类方法。在短文本原始特征的基础上,利用LDA主题模型对短文本进行预测,得到对应的主题分布,把主题中的词作为短文本的部分特征,并扩充到原短文本的特征中去,最后利用SVM分类方法进行短文本的分类。实验表明,该方法在性能上与传统的直接使用VSM模型来表示短文本特征的方法相比,对不同类别的短文本进行分类,都有不同程度的提高与改进,对于短文本进行补充LDA特征信息的方法是切实可行的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号