首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 155 毫秒
1.
传统的特征选择方法通常使用特征评价函数从原始词集中筛选出最具有类别区分能力的特征。这些方法是基于以独立的词作为语义单元的向量空间模型,忽略了词与词之间的关联关系,难以突出文本内容中的关键特征。针对传统特征选择方法的不足,本文提出一种新的基于词间关系的文本特征选择算法。该方法考虑对文本内容表示起到关键性作用的词,利用关联规则挖掘算法发现词语之间的关联关系,并且通过相关分析对强关联规则进行筛选,最终生成与类别属性密切相关的特征空间。实验结果表明,该方法更好地表示了文本的语义内容,而且分类效果优于传统算法。  相似文献   

2.
文本分类是目前深度学习方法被广泛应用的重要领域之一.本文设计了一种基于循环神经网络和胶囊网络的混合模型,使用胶囊网络来克服卷积神经网络对空间不敏感的缺点,学习文本局部与整体之间的关系特征,并使用循环神经网络中的GRU神经网络经过最大池化层来学习上下文显著信息特征,结合两者来优化特征提取过程从而提高文本分类效果.与此同时,在嵌入层中提出了一种基于缺失词补全的混合词向量方法,采用两种策略来减少缺失词过度匹配的现象以及降低词向量中的噪声数据出现的概率,从而获得语义丰富且少噪声的高质量词向量.在经典文本分类数据集中进行实验,通过与对比模型的最优方法进行比较,证明了该模型和方法能有效地提升文本分类准确度.  相似文献   

3.
传统词嵌入通常将词项的不同上下文编码至同一参数空间,造成词向量未能有效辨别多义词的语义;CNN网络极易关注文本局部特征而忽略文本时序语义,BiGRU网络善于学习文本时序整体语义,造成关键局部特征提取不足.针对上述问题,提出一种基于词性特征的CNN_BiGRU文本分类模型.引入词性特征构建具有词性属性的词性向量;将词性向量与词向量交叉组合形成增强词向量,以改善文本表示;采用CNN网络获取增强词向量的局部表示,利用BiGRU网络捕获增强词向量的全局上下文表示;融合两模型学习的表示形成深度语义特征;将该深度语义特征连接至Softmax分类器完成分类预测.实验结果表明,该模型提高了分类准确率,具有良好的文本语义建模和识别能力.  相似文献   

4.
文本分类有着广泛的应用,对其分类算法的研究也一直备受关注。但是,传统文本分类算法普遍存在文本特征向量化维度过高、没有考虑关键词之间语义关系、训练参数过多等问题,这些都将影响到分类准确率等性能。针对这些问题,提出了一种结合词向量化与GRU的文本分类算法。对文本进行预处理操作;通过GloVe进行词向量化,尽可能多地蕴含文本语义和语法信息,同时降低向量空间维度;再利用GRU神经网络模型进行训练,最大程度保留长文本中长距离词之间的语义关联。实验结果证明,该算法对提高文本分类性能有较明显的作用。  相似文献   

5.
曹建乐  李娜娜 《计算机应用》2023,(12):3703-3710
由于自然语言的复杂语义、词的多情感极性以及文本的长期依赖关系,现有的文本情感分类方法面临严峻挑战。针对这些问题,提出了一种基于多层次注意力的语义增强情感分类模型。首先,使用语境化的动态词嵌入技术挖掘词汇的多重语义信息,并且对上下文语义进行建模;其次,通过内部注意力层中的多层并行的多头自注意力捕获文本内部的长期依赖关系,从而获取全面的文本特征信息;再次,在外部注意力层中,将评论元数据中的总结信息通过多层次的注意力机制融入评论特征中,从而增强评论特征的情感信息和语义表达能力;最后,采用全局平均池化层和Softmax函数实现情感分类。在4个亚马逊评论数据集上的实验结果表明,与基线模型中表现最好的TE-GRU(Transformer Encoder with Gated Recurrent Unit)相比,所提模型在App、Kindle、Electronic和CD数据集上的情感分类准确率至少提升了0.36、0.34、0.58和0.66个百分点,验证了该模型能够进一步提高情感分类性能。  相似文献   

6.
针对问题文本细粒度分类中文本特征稀疏、文本整体特征相似、局部差异特征较难提取的特点,提出基于语义扩展与注意力网络相结合的分类方法。通过依存句法分析树提取语义单元,在向量空间模型中计算语义单元周围的相似语义区域并进行扩展。利用长短期记忆网络模型对扩展后的文本进行词编码,引入注意力机制生成问题文本的向量表示,根据Softmax分类器对问题文本进行分类。实验结果表明,与传统的基于深度学习网络的文本分类方法相比,该方法能够提取出更重要的分类特征,具有较好的分类效果。  相似文献   

7.
针对复杂文本评论的情感分析研究存在着隐式主题方面分类不精确、文本特征提取不全面和识别文本上下文语义不足等问题,论文提出了一种多维特征融合的混合神经网络文本情感分析模型MFF-HNN.该模型先把词向量、词性、位置和句法依存特征进行注意力特征融合,抽取出主题词库,然后把融合特征输入到改进的TBGRU模型和DCNN模型中获取语义信息和局部特征信息,再与主题词库结合进行注意力特征融合语义特征信息,最后使用SoftMax函数获取文本方面级情感分类信息.实验表明,该模型的情感分类的效果优于其它模型.  相似文献   

8.
向量空间模型中结合句法的文本表示研究   总被引:1,自引:1,他引:0       下载免费PDF全文
为增强向量空间模型(VSM)中项的语义描述性,克服VSM中各语义单元相互独立的缺陷,提出一种基于短语的特征粒度描述方法。该方法从文本的表示及特征项之间的组织方式入手,通过句法规则识别基本短语,构建特征与中心动词的关系树,利用基本短语代替BOW中的词。实验结果表明,采用基本短语的文本表示可提高分类的性能,增加项之间的联系,克服特征项相互独立的缺陷,在特征数量较少的情况下仍能保持良好的分类效果。  相似文献   

9.
目前多数文本分类方法无法有效反映句子中不同单词的重要程度,且在神经网络训练过程中获得的词向量忽略了汉字本身的结构信息。构建一种GRU-ATT-Capsule混合模型,并结合CW2Vec模型训练中文词向量。对文本数据进行预处理,使用传统的词向量方法训练的词向量作为模型的第1种输入,通过CW2Vec模型训练得到的包含汉字笔画特征的中文词向量作为第2种输入,完成文本表示。利用门控循环单元分别提取2种不同输入的上下文特征并结合注意力机制学习文本中单词的重要性,将2种不同输入提取出的上下文特征进行融合,通过胶囊网络学习文本局部与全局之间的关系特征实现文本分类。在搜狗新闻数据集上的实验结果表明,GRU-ATT-Capsule混合模型相比TextCNN、BiGRU-ATT模型在测试集分类准确率上分别提高2.35和4.70个百分点,融合笔画特征的双通道输入混合模型相比单通道输入混合模型在测试集分类准确率上提高0.45个百分点,证明了GRU-ATT-Capsule混合模型能有效提取包括汉字结构在内的更多文本特征,提升文本分类效果。  相似文献   

10.
为了在不加入外部语义知识的前提下改善向量空间模型的文本分类效果,通过挖掘语料库内部蕴含的词间关系和文本间关系,并以不同的方式融入原始的词文本矩阵,然后选择常用的SVM和KNN算法,在领域性较强的法律语料库和领域性较宽泛的新闻语料库上进行文本分类的对比实验。实验证明,加入词间关系和文本间关系通常能有效改善文本分类的效果,但是对不同的分类方法和领域特征有不同的影响,在实际应用中应该区别对待。  相似文献   

11.
针对传统的卷积神经网络未能充分利用不同通道间的文本特征语义信息和关联信息,以及传统的词向量表示方法采用静态方式对文本信息进行提取,忽略了文本的位置信息,从而导致文本情感分类不准确的问题,提出了一种结合ALBERT(a lite BERT)和注意力特征分割融合网络(attention feature split fusion network,AFSFN)的中文短文本情感分类模型ALBERT-AFSFN。该模型利用ALBERT对文本进行词向量表示,提升词向量的表征能力;通过注意力特征分割融合网络将特征分割为两组,对两组不同通道的特征进行提取和融合,最大程度保留不同通道之间的语义关联信息;借助Softmax函数对中文短文本情感进行分类,得到文本的情感倾向。在三个公开数据集Chnsenticorp、waimai-10k和weibo-100k上的准确率分别达到了93.33%、88.98%和97.81%,F1值也分别达到了93.23%、88.47%和97.78%,结果表明提出的方法在中文短文本情感分析中能够达到更好的分类效果。  相似文献   

12.
基于卷积神经网络与循环神经网络的混合文本分类模型通常使用单通道词嵌入。单通道词嵌入空间维度低,特征表示单一,导致一维卷积神经网络不能充分学习文本的空间特征,影响了模型的性能。因此,该文提出一种融合通道特征的混合神经网络文本分类模型。该模型使用了双通道词嵌入丰富文本表示,增加了空间维度,在卷积的过程中融合了通道特征,优化了空间特征与时序特征的结合方式,最终提高了混合模型的分类性能。在IMDB、20NewsGroups、复旦中文数据集、THUC数据集上进行实验,该模型的分类准确率相比于传统卷积神经网络平均提升了1%,在THUC数据集上准确率最高提升了1.3%。  相似文献   

13.
融合语义特征的关键词提取方法   总被引:1,自引:0,他引:1  
关键词提取被广泛应用于文本挖掘领域,是文本自动摘要、自动分类、自动聚类等研究的基础。因此,提取高质量的关键词具有十分重要的研究意义。已有关键词提取方法研究中大多仅考虑了部分文本的统计特征,没有考虑词语的隐式语义特征,导致提取结果的准确率不高,且关键词缺乏语义信息。针对这一问题,文中设计了一种针对词语与文本主题之间的特征进行量化的算法。该算法首先用词向量的方法挖掘文本中词语的上下文语义关系,然后通过聚类方法抽取文本中主要的语义特征,最后用相似距离的方式计算词语与文本主题之间的距离并将其作为该词语的语义特征。此外,通过将语义特征与多种描述词语的词频、长度、位置和语言等特征结合,文中还提出了一种融合语义特征的短文本关键词提取方法,简称SFKE方法。该方法从统计信息和语义层面分析了词语的重要性,从而可以综合多方面因素提取出最相关的关键词集合。实验结果表明,相比TFIDF,TextRank,Yake,KEA和AE等方法,融合多种特征的关键词提取方法的性能有了明显的提升。该方法与基于有监督的AE方法相比,F-Score提升了9.3%。最后,用信息增益的方法对特征的重要性进行评估,结果表明,添加语义特征后模型的F-Score提升了7.2%。  相似文献   

14.
刘金硕  张智 《计算机科学》2016,43(12):277-280
针对因中文食品安全文本特征表达困难,而造成语义信息缺失进而导致分类器准确率低下的问题,提出一种基于深度神经网络的跨文本粒度情感分类模型。以食品安全新闻报道为目标语料,采用无监督的浅层神经网络初始化文本的词语级词向量。引入递归神经网络,将预训练好的词向量作为下层递归神经网络(Recursive Neural Network)的输入层,计算得到具备词语间语义关联性的句子特征向量及句子级的情感倾向输出,同时动态反馈调节词向量特征,使其更加接近食品安全特定领域内真实的语义表达。然后,将递归神经网络输出的句子向量以时序逻辑作为上层循环神经网络(Recurrent Neural Network)的输入,进一步捕获句子结构的上下文语义关联信息,实现篇章级的情感倾向性分析任务。实验结果表明,联合深度模型在食品安全新闻报道的情感分类任务中具有良好的效果,其分类准确率和F1值分别达到了86.7%和85.9%,较基于词袋思想的SVM模型有显著的提升。  相似文献   

15.
流派分类和基于主题的文本分类最大的区别之处就在于文本的特征。流派分类需要能够描述文档风格的、表达更强语义信息的特征,基于特征情感色彩的分类方法是将情感色彩这种语义信息附加到特征上。首先介绍了文档流派分类的概念及其应用,然后分析了流派分类的文本特征和词汇的情感倾向权值的几种计算方法,论述了基于特征情感色彩的文档流派分类过程,最后对几种分类方法进行了实验结果分析和比较。  相似文献   

16.
针对维吾尔语句子情感信息:喜、怒、哀、乐和客观五分类任务,提出一种利用深度信念网络模型(Deep Belief Nets, DBN)的深度学习机制进行基于深层语义特征的句子级情感分析方法。该方法通过对维吾尔语情感句及语言特点的深入研究,提取出利于情感分析任务的8项情感特征。为了提高特征对文本语义的表达,将富含词汇深层语义和上下文信息的word embedding特征与情感特征进行融合,作为深度信念网络的输入。利用多层无监督的波尔兹曼机(RBM)训练并提取隐含的深层语义特征,通过有监督的后向传播算法对网络进行微调,进而完成情感分类任务。该方法在维吾尔语句子级情感分类任务中的准确率为83,35%,召回率为84.42%,F值为:83.88%. 实验结果证明,深度学习模型较浅层的学习模型更合适于本文的情感分类任务,对word embedding特征项的引入,有效的提高了情感分类模型的性能.  相似文献   

17.
快速、准确和全面地从大量互联网文本信息中定位情感倾向是当前大数据技术领域面临的一大挑战.文本情感分类方法大致分为基于语义理解和基于有监督的机器学习两类.语义理解处理情感分类的优势在于其对不同领域的文本都可以进行情感分类,但容易受到中文存在的不同句式及搭配的影响,分类精度不高.有监督的机器学习虽然能够达到比较高的情感分类精度,但在一个领域方面得到较高分类能力的分类器不适应新领域的情感分类.在使用信息增益对高维文本做特征降维的基础上,将优化的语义理解和机器学习相结合,设计了一种新的混合语义理解的机器学习中文情感分类算法框架.基于该框架的多组对比实验验证了文本信息在不同领域中高且稳定的分类精度.  相似文献   

18.
张阳  王小宁 《计算机应用》2021,41(11):3151-3155
文本特征是自然语言处理中的关键部分。针对目前文本特征的高维性和稀疏性问题,提出了一种基于Word2Vec词嵌入和高维生物基因选择遗传算法(GARBO)的文本特征选择方法,从而便于后续文本分类任务。首先,优化数据输入形式,使用Word2Vec词嵌入方法将文本转变成类似基因表示的词向量;然后,将高维词向量模拟基因表达方式进行迭代进化;最后,使用随机森林分类器对特征选择后的文本进行分类。使用中文评论数据集对所提出的方法进行实验,实验结果表明了优化后的GARBO特征选择方法在文本特征选择上的有效性,该方法成功地将300维特征降低为50维更有价值的特征,分类准确率达到88%,与其他过滤式文本特征选择方法相比,能够有效地降低文本特征维度,提高文本分类效果。  相似文献   

19.
中文短文本自身包含词汇个数少、描述信息能力弱,常用的文本分类方法对于短文本分类效果不理想。同时传统的文本分类方法在处理大规模文本分类时会出现向量维数很高的情况,造成算法效率低,而且一般用于长文本分类的特征选择方法都是基于数理统计的,忽略了文本中词项之间的语义关系。针对以上问题本文提出基于卡方特征选择和LDA主题模型的中文短文本分类方法,方法使用LDA主题模型的训练结果对传统特征选择方法进行特征扩展,以达到将数理信息和语义信息融入分类算法的目的。对比试验表明,这种方法提高了中文短文本分类效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号