首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对现有文本分类算法处理中文数据时存在的分类精度低、参数量庞大、模型难训练等问题,对BERT算法进行了优化.BERT算法处理中文文本时无法提取词向量特征,为此提出了均匀词向量卷积模块AWC.通过在传统卷积神经网络中引入注意力机制来提取可靠词向量特征,再进一步获取到文本的局部特征,由此弥补了BERT模型无法提取词向量的缺...  相似文献   

2.
目前的新闻分类研究以英文居多,而且常用的传统机器学习方法在长文本处理方面,存在局部文本块特征提取不完善的问题.为了解决中文新闻分类缺乏专门术语集的问题,采用构造数据索引的方法,制作了适合中文新闻分类的词汇表,并结合word2vec预训练词向量进行文本特征构建.为了解决特征提取不完善的问题,通过改进经典卷积神经网络模型结...  相似文献   

3.
《现代电子技术》2018,(8):167-170
针对当前文本分类神经网络不能充分提取词语与词语和句子与句子之间的语义结构特征信息的问题,提出一种基于LSTM-Attention的神经网络实现文本特征提取的方法。首先,分别使用LSTM网络对文本的词语与词语和句子与句子的特征信息进行提取;其次,使用分层的注意力机制网络层分别对文本中重要的词语和句子进行选择;最后,将网络逐层提取得到的文本特征向量使用softmax分类器进行文本分类。实验结果表明,所提方法可以有效地提取文本的特征,使得准确率得到提高。将该方法应用在IMDB,yelp2013和yelp2014数据集上进行实验,分别得到52.4%,66.0%和67.6%的正确率。  相似文献   

4.
李明超  张寿明 《电视技术》2021,45(10):116-119
为了解决双向长短时记忆网络(Bi-directional Long Short-Term Memory,BiLSTM)模型不能解决一词多义、不能充分学习文本深层次语义的问题,提出一种基于Bert-A-BiR的文本情感分析模型.首先,对预训练模型(Bidirectional Encoder Representations from Transformers,BERT)进行微调,利用BERT预训练模型对词向量动态调整,将包含上下文信息的真实语义嵌入模型;其次,利用双向门控循环网络(BiGRU)层对BERT层输出文本进行深层特征采集;再次,引入注意力机制,为采集的深层情感特征分配相应的不同权重;最后,将包含权重信息的情感特征送入softmax层进行情感分类.同时,为了进一步提升模型对文本深层语义的学习能力,设计6组相关模型进行进一步实验验证.实验结果表明,所提出的神经网络模型在IMDB数据集上的最高准确率为93.66%,在SST-5数据集上的最高准确率为53.30%,验证了Bert-BiR-A模型的有效性.  相似文献   

5.
体育赛事作为公共话题,是网络舆情的来源之一。针对传统词向量语义表示质量不高,深度学习模型特征提取能力不强等问题,提出了基于ERNIE-BiSRU-AT的体育赛事评论文本分类模型。利用预训练模型ERNIE提取词的动态向量表示,BiSRU-AT模块捕获文本的上下文序列特征,并聚焦于对情感极性贡献较大的词。在真实微博女排赛事评论数据集进行实验,ERNIE-BiSRU-AT模型F1分数达到92.35%,高于实验对比的其他模型,验证了模型的有效性。  相似文献   

6.
李倩 《电子技术》2014,(10):8-11
文章首先介绍文本分类预处理的几种方法及其不足之处,并提出一种改进的特征提取方法。然后,介绍几种文本分类算法,并指出其缺点。最后本文介绍支持向量机算法,结合改进后的文本预处理方法对网络文本进行分类,并通过与KNN对比分析说明了该算法的高效性能。  相似文献   

7.
多标签文本分类的结果很大程度上受到标签相关性的影响.为了更加细致地处理标签相关性问题,提出一种融合注意力机制的多标签文本分类方法.首先,将文本和标签预处理后,对标签输入采用两种不同的嵌入方式提取特征;其次,运用注意力机制处理信息,针对文本和标签信息,自注意力机制进行特征处理,标签注意力机制和交互注意力机制进行依赖关系处理,进而得到两种不同状态下的表示方式;最后,通过两次融合,充分表示文本标签信息,得到较好的标签分类结果.实验结果显示,较之于基线方法,在精度和归一化折损累计增益上,该方法数据总体有所提高.由此,该方法可以有效地融合文本和标签信息,缓解标签相关性问题,有利于提升多标签文本分类任务性能.  相似文献   

8.
为解决卷积神经网络(CNN)和循环神经网络(RNN)处理文本分类任务时,由于文本特征稀疏造成的关键特征信息丢失、模型性能不高和分类效果不佳等问题.提出一种基于多通道注意力机制的文本分类模型,首先利用字词融合的形式进行向量表示,然后利用CNN和BiLSTM提取文本的局部特征和上下文关联信息,接着以注意力机制对各通道的输出...  相似文献   

9.
基于文本分类技术的垃圾邮件识别系统   总被引:7,自引:0,他引:7  
文章介绍了一个基于文本分类技术识别垃圾邮件系统的体系结构,并介绍了该系统涉及到的中文信息处理、文本特征选取、朴素贝叶斯分类器等关键技术。最后,文章给出了针对部分垃圾邮件的处理结果。结果表明,该方法对于垃圾邮件的识别,具有较好的效果。  相似文献   

10.
传统文本分类算法通常以词作为特征,将文本数据映射到一个高维向量空间进行训练。本文则采用支持张量机(STM)进行文本分类,以二阶张量为例,将文本映射到张量空间进行运算。该算法有效降低了数据特征维数,因此更加适合小样本数据的学习。相关实验也证明,支持张量机在处理小样本问题与数据偏斜问题方面更具优势。  相似文献   

11.
基于支持向量机的Web文本分类方法   总被引:7,自引:8,他引:7  
Web文本分类技术是数据挖掘中一个研究热点领域,而支持向量机又是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势。文章通过分析Web文本的特点,研究了向量空间模型(VSM)的分类方法和核函数的选取,在此基础上结合决策树方法提出了一种基于决策树支持向量机的Web文本分类模型。并给出具体的算法。通过实验测试表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率(90.11%)和召回率(89.38%)。  相似文献   

12.
赵博  丁华福 《信息技术》2007,31(12):122-124
研究了基于向量空间模型的自动文本分类算法,在对现有分类算法原理深入分析的基础上,针对现有算法的不足,引入了关键向量的概念,提出了一种基于关键向量的文本分类算法,并给出了基于该算法的实验数据。  相似文献   

13.
陈培新  郭武 《信号处理》2017,33(8):1090-1096
经典的概率主题模型通过词与词的共现挖掘文本的潜在主题信息,在文本聚类与分类任务上被广泛应用。近几年来,随着词向量和各种神经网络模型在自然语言处理上的成功应用,基于神经网络的文本分类方法开始成为研究主流。本文通过卷积神经网络(Convolutional Neural Network,CNN)和概率主题模型在文本主题分类上的效果对比,展示了CNN在此任务上的优越性。在此基础上,本文利用CNN模型提取文本的特征向量并将其命名为卷积语义特征。为了更好地刻画文本的主题信息,本文在卷积语义特征上加入文本的潜在主题分布信息,从而得到一种更有效的文本特征表示。实验结果表明,相比于单独的概率主题模型或CNN模型,新的特征表示显著地提升了主题分类任务的F1值。   相似文献   

14.
针对传统人工总结、编写标题的方法在耗费大量人力、时间成本的同时难以应对互联网中大量不规范的文本的问题,文中设计了一种基于神经网络的文本标题生成原型系统.在文本标题生成原型系统中通过基于神经网络编码器-解码器模型对文本进行建模计算,从而经济、高效地生成一条准确、简洁、切合原文的标题.在编码器部分采用双向长短期记忆神经网络...  相似文献   

15.
在中文文本分类任务中,针对重要特征在中文文本中位置分布分散、稀疏的问题,以及不同文本特征对文本类别识别贡献不同的问题,该文提出一种基于语义理解的注意力神经网络、长短期记忆网络(LSTM)与卷积神经网络(CNN)的多元特征融合中文文本分类模型(3CLA)。模型首先通过文本预处理将中文文本分词、向量化。然后,通过嵌入层分别经过CNN通路、LSTM通路和注意力算法模型通路以提取不同层次、具有不同特点的文本特征。最终,文本特征经融合层融合后,由softmax分类器进行分类。基于中文语料进行了文本分类实验。实验结果表明,相较于CNN结构模型与LSTM结构模型,提出的算法模型对中文文本类别的识别能力最多提升约8%。  相似文献   

16.
对数据进行分类处理是当前的研究热点,采用传统机器学习算法对英语文本进行分类有文本特征不明显、训练周期长、词序丢失等诸多缺点.针对传统机器学习算法的不足,文中对Word2vec算法和TF-IDF算法进行融合,生成改进的TF-Word算法.同时应用卷积神经网络组成混合神经网络模型实现文本分类,该方法可以有效提高传统文本分类...  相似文献   

17.
18.
网络新闻自动分类已经成为当下的热点问题,SVM分类算法是文本分类中应用较为成熟的一种方法.文章针对SVM文本分类中特征选择和核函数选择的两个重要问题,在新闻文本实验环境下进行了探讨,结果表明使用互信息特征选择法且特征数在4000左右,使用SIGMOID核函数的情况下准确率与召回率均可达到97%的分类效果.  相似文献   

19.
随着深度学习技术在自然语言处理领域的广泛应用,短文本情感分类技术得到显著发展。该文提出了一种融合TextCNN-BiGRU的多因子权重文本情感分类算法。算法通过引入词语情感类别分布、情感倾向以及情感强度三个关键因子改进了词语的向量表示。将基于词向量表示的短文本分别作为TextCNN和BiGRU模型的输入,提取文本关键局部特征以及文本上下文的全局特征,将两种特征进行线性融合,实现中文短文本的情感分类。在公开的两个情感分类数据集上验证了多因子权重向量表示方法和融合TextCNN-BiGRU的情感分类模型的有效性,实验结果表明,文中提出的算法较单一模型在短文本情感分类准确率上提高了2%。  相似文献   

20.
目前大多数文本自动分类系统都采用向量空间模型(VSM)来表示文档.针对常规的VSM文档表示方法不能反映概念的问题,文章对VSM进行了改进.在VSM的基础上,选取在同一个窗口单元中出现的高频词,用Apriori算法从这些高频词中挖掘出最大频繁词共现集,以此对VSM进行扩展后用来表示文档.实验表明,与用VSM表示文档相比,该方法使文本自动分类系统的性能有了显著的提高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号