首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
杨青  张亚文  朱丽  吴涛 《计算机科学》2021,48(11):307-311
针对简单的神经网络缺乏捕获文本上下文语义和提取文本内重要信息的能力,设计了一种注意力机制和门控单元(GRU)融合的情感分析模型FFA-BiAGRU.首先,对文本进行预处理,通过GloVe进行词向量化,降低向量空间维度;然后,将注意力机制与门控单元的更新门融合以形成混合模型,使其能提取文本特征中的重要信息;最后,通过强制向前注意力机制进一步提取文本特征,再由softmax分类器进行分类.在公开数据集上进行实验,结果证明该算法能有效提高情感分析的性能.  相似文献   

2.
杨青  张亚文  朱丽  吴涛 《计算机科学》2021,48(11):307-311
针对简单的神经网络缺乏捕获文本上下文语义和提取文本内重要信息的能力,设计了一种注意力机制和门控单元(GRU)融合的情感分析模型FFA-BiAGRU.首先,对文本进行预处理,通过GloVe进行词向量化,降低向量空间维度;然后,将注意力机制与门控单元的更新门融合以形成混合模型,使其能提取文本特征中的重要信息;最后,通过强制向前注意力机制进一步提取文本特征,再由softmax分类器进行分类.在公开数据集上进行实验,结果证明该算法能有效提高情感分析的性能.  相似文献   

3.
为了提高资源匮乏语言的情感分类性能,提出一种基于对抗双向GRU网络相结合的跨语言情感分类模型(ABi-GRU)。通过基于语义双语词嵌入方法来提取中英文文本词向量特征;结合注意力机制的双向GRU网络提取文本的上下文情感特征,同时引入生成对抗网络缩小中英文向量特征分布之间的差距;通过情感分类器进行情感分类。实验结果分析表明,该方法有效地提升了跨语言情感分类的准确率。  相似文献   

4.
随着专利申请数量的快速增长,对专利文本实现自动分类的需求与日俱增。现有的专利文本分类算法大都采用Word2vec和全局词向量(GloVe)等方式获取文本的词向量表示,舍弃了大量词语的位置信息且不能表示出文本的完整语义。针对上述问题,提出了一种结合ALBERT和双向门控循环单元(BiGRU)的多层级专利文本分类模型ALBERT-BiGRU。该模型使用ALBERT预训练的动态词向量代替传统Word2vec等方式训练的静态词向量,提升了词向量的表征能力;并使用BiGRU神经网络模型进行训练,最大限度保留了专利文本中长距离词之间的语义关联。在国家信息中心公布的专利数据集上进行有效性验证,与Word2vec-BiGRU和GloVe-BiGRU相比,ALBERT-BiGRU的准确率在专利文本的部级别分别提高了9.1个百分点和10.9个百分点,在大类级别分别提高了9.5个百分点和11.2个百分点。实验结果表明,ALBERT-BiGRU能有效提升不同层级专利文本的分类效果。  相似文献   

5.
针对微博的短文本、口语化和大数据等特性,提出基于词向量的微博话题发现方法。爬取实验数据结合中文语料库训练得到词的向量表示,再通过定义的文本词向量模型得到文本的词向量表示,相较于传统的向量空间表示模型,词向量表示模型能够解决微博短文本特征稀疏、高维度问题,同时,能够解决文本语义信息丢失问题;采用改进的Canopy算法对文本进行模糊聚类;对相同Canopy内的数据用K-means算法做精确聚类。实验结果表明,该方法与经典Single-Pass聚类算法相比,话题发现综合指标提高4%,证明了所提方法的有效性和准确性。  相似文献   

6.
基于单词相似度的文本聚类   总被引:3,自引:1,他引:3  
研究了现有的基于向量空间模型的文本聚类算法,发现这些算法都存在数据维度过高和忽略了单词之间语义关系的缺点.针对这些问题,提出一种基于单词相似度的文本聚类算法,该算法首先利用单词相似度对单词进行分类获得单词间的语义关系,然后利用产生的单词类作为向量空间的项表示文本降低了向量空间的维度,最后采用基于划分聚类方法对文本聚类.实验结果表明,相对于传统基于向量空间模型的聚类算法,该算法具有较好的聚类效果.  相似文献   

7.
《计算机科学与探索》2017,(7):1122-1130
针对以往进行藏文情感分析时算法忽略藏文语句结构、词序等重要信息而导致结果准确率较低的问题,将深度学习领域内的递归自编码算法引入藏文情感分析中,以更深层次提取语义情感信息。将藏文分词后,用词向量表示词语,则藏文语句变为由词向量组成的矩阵;利用无监督递归自编码算法对该矩阵向量化,此时获得的最佳藏文语句向量编码融合了语义、语序等重要信息;利用藏文语句向量和其对应的情感标签,有监督地训练输出层分类器以预测藏文语句的情感倾向。在实例验证部分,探讨了不同向量维度、重构误差系数及语料库大小对算法准确度的影响,并分析了语料库大小和模型训练时间之间的关系,指出若要快速完成模型的训练,可适当减小数据集语句条数。实例验证表明,在最佳参数组合下,所提算法准确度比传统机器学习算法中性能较好的语义空间模型高约8.6%。  相似文献   

8.
文本的语义表示是自然语言处理和机器学习领域的研究难点,针对目前文本表示中的语义缺失问题,基于LDA主题模型和Word2vec模型,提出一种新的文本语义增强方法Sem2vec(semantic to vector)模型。该模型利用LDA主题模型获得单词的主题分布,计算单词与其上下文词的主题相似度,作为主题语义信息融入到词向量中,代替one-hot向量输入至Sem2vec模型,在最大化对数似然目标函数约束下,训练Sem2vec模型的最优参数,最终输出增强的语义词向量表示,并进一步得到文本的语义增强表示。在不同数据集上的实验结果表明,相比其他经典模型,Sem2vec模型的语义词向量之间的语义相似度计算更为准确。另外,根据Sem2vec模型得到的文本语义向量,在多种文本分类算法上的分类结果,较其他经典模型可以提升0.58%~3.5%,同时也提升了时间性能。  相似文献   

9.
针对Biterm主题模型短文本文档的双词产生过程中词对之间缺乏语义联系的情况,提出一种融入词对语义扩展的Biterm主题模型。考虑双词的语义关系,引入词向量模型。通过训练词向量模型,判断词与词之间的语义距离,并根据语义距离对Biterm主题模型进行双词语义扩展。实验结果表明,与现有Biterm主题模型相比,该模型不仅具有较好的短文本主题分类效果,而且双词间的语义关联性能及主题词义聚类性能也得到明显提升。  相似文献   

10.
一种基于词义向量模型的词语语义相似度算法   总被引:1,自引:0,他引:1  
李小涛  游树娟  陈维 《自动化学报》2020,46(8):1654-1669
针对基于词向量的词语语义相似度计算方法在多义词、非邻域词和同义词三类情况计算准确性差的问题, 提出了一种基于词义向量模型的词语语义相似度算法.与现有词向量模型不同, 在词义向量模型中多义词按不同词义被分成多个单义词, 每个向量分别与词语的一个词义唯一对应.我们首先借助同义词词林中先验的词义分类信息, 对语料库中不同上下文的多义词进行词义消歧; 然后基于词义消歧后的文本训练词义向量模型, 实现了现有词向量模型无法完成的精确词义表达; 最后对两个比较词进行词义分解和同义词扩展, 并基于词义向量模型和同义词词林综合计算词语之间的语义相似度.实验结果表明本文算法能够显著提升以上三类情况的语义相似度计算精度.  相似文献   

11.
基于PLSA主题模型的多标记文本分类   总被引:1,自引:1,他引:0  
为解决多标记文本分类时文本标记关系不明确以及特征维数 过大的问题,提出了基于概率隐语义分析(Probabilistic latent semantic analysis,PL SA)模型的多标记假设重用文本分类算法。该方法首先将训练样本通过PLSA模型映射到隐语 义空间,以文本的主题分布表示一篇文本,在去噪的同时可以大大降低数据维度。在此基础 上利用多标记假设重用算法(Multi label algorithm of hypothesis reuse,MAHR)进行 分类,由于经过PLSA降维后的特征组本身就具有语义信息,因此算法能够精确地挖掘出多标 记之间的关系并用于训练基分类器,从而避免了人为输入标记关系的缺陷。实验验证了该方 法能够充分利用PLSA降维得到的语义信息来改善多标记文本分类的性能。  相似文献   

12.
文本情感分类的核心问题是如何有效地表示文本的情感语义,然而,目前的大多数方法只考虑到了文本内容中的情感语义,忽略了与文本内容相关的用户信息以及文本内容所描述的产品信息。已有的包含用户和产品信息方法也存在着以下两个问题:(1)不能有效地表示用户和产品信息,而且模型复杂度过高导致训练速度满。(2)文本情感语义表示模型过于简单,不能有效地表示文本中的上下文语义信息。针对以上两个问题,提出了相应的解决方案:(1)针对用户和产品的评价数据,利用奇异值分解(Singular Value Decomposition,SVD)的方法得到用户和产品的语义准确的先验信息,同时避免了用户和产品信息等相关参数的训练,缓解了模型复杂度高的问题。(2)利用双向的门循环单元(GRU)模型代替原有的简单模型,更加有效地结合了文本中的上下文语义信息。实验结果表明:相比传统的文本分类方法,提出的方法有更好的分类效果,在部分实验数据中达到了最好的分类准确度。同时模型的训练速度也得到了提升。  相似文献   

13.
结合改进主动学习的SVD-CNN弹幕文本分类算法   总被引:1,自引:0,他引:1  
为解决传统卷积神经网络(CNN)模型使用池化层进行文本特征降维会损失较多文本语义信息的问题,提出一种基于奇异值分解(SVD)算法的卷积神经网络模型(SVD-CNN)。首先,采用改进的基于密度中心点采样的主动学习算法(DBC-AL)选择对分类模型贡献率较高的样本进行标注,以低标注代价获得高质量模型训练集;然后,结合SVD算法建立SVD-CNN弹幕文本分类模型,使用奇异值分解的方法代替传统CNN模型池化层进行特征提取和降维,并在此基础上完成弹幕文本分类任务;最后,使用改进的梯度下降算法(PSGD)对模型参数进行优化。为了验证改进算法的有效性,使用多种弹幕数据样本集,对提出的模型与常用的文本分类模型进行对比实验。实验结果表明,改进的算法能够更好地保留文本语义特征,保证训练过程的稳定性并提高了模型的收敛速度,在不同的弹幕文本上较传统算法具有更好的分类性能。  相似文献   

14.
基于向量空间模型(VSM)的文本聚类会出现向量维度过高以及缺乏语义信息的问题,导致聚类效果出现偏差。为解决以上问题,引入《知网》作为语义词典,并改进词语相似度算法的不足。利用改进的词语语义相似度算法对文本特征进行语义压缩,使所有特征词都是主题相关的,利用调整后的TF-IDF算法对特征项进行加权,完成文本特征抽取,降低文本表示模型的维度。在聚类中,将同一类的文本划分为同一个簇,利用簇中所有文本的特征词完成簇的语义特征抽取,簇的表示模型和文本的表示模型有着相同的形式。通过计算簇之间的语义相似度,将相似度大于阈值的簇合并,更新簇的特征,直到算法结束。通过实验验证,与基于K-Means和VSM的聚类算法相比,文中算法大幅降低了向量维度,聚类效果也有明显提升。  相似文献   

15.
针对传统的循环神经网络模型在处理长期依赖问题时面临着梯度爆炸或者梯度消失的问题,且参数多训练模型时间长,提出一种基于双向GRU神经网络和贝叶斯分类器的文本分类方法。利用双向GRU神经网络提取文本特征,通过TF-IDF算法权重赋值,采用贝叶斯分类器判别分类,改进单向GRU对后文依赖性不足的缺点,减少参数,缩短模型的训练时间,提高文本分类效率。在两类文本数据上进行对比仿真实验,实验结果表明,该分类算法与传统的循环神经网络相比能够有效提高文本分类的效率和准确率。  相似文献   

16.
针对标签随着时间变化的动态多标签文本分类问题,提出了一种基于标签语义相似的动态多标签文本分类算法。该算法在训练阶段,首先按照标签固定训练得到一个基于卷积神经网络的多标签文本分类器,然后以该分类器的倒数第二层的输出为文本的特征向量。由于该特征向量是在有标签训练得到的,因而相对于基于字符串即文本内容而言,该特征向量含有标签语义信息。在测试阶段,将测试文档输入训练阶段的多标签文本分类器获取相应的特征向量,然后计算相似性,同时乘以时间衰减因子修正,使得时间越近的文本具有较高的相似性。最后,采用最近邻算法分类。实验结果表明,该算法在处理动态多标签文本分类问题上具有较优的性能。  相似文献   

17.
传统文本聚类方法只适合处理静态样本,且时间复杂度较高。针对该问题,提出一种基于簇相合性的文本增量聚类算法。采用基于词项语义相似度的文本表示模型,利用词项之间的语义信息,通过计算新增文本与已有簇之间的相合性实现对文本的增量聚类。增量处理完部分文本后,对其中错分可能性较大的文本重新指派类别,以进一步提高聚类性能。该算法可在对象数据不断增长或更新的情况下,避免大量重复计算,提高聚类性能。在20 Newsgroups数据集上进行实验,结果表明,与k-means算法和SHC算法相比,该算法可减少聚类时间,提高聚类性能。  相似文献   

18.
针对基于词袋的机器学习文本分类方法所存在的:高维度、高稀疏性、不能识别同义词、语义信息缺失等问题,和基于规则模式的文本分类所存在的虽然准确率较高但鲁棒性较差的问题,本文提出了一种采用词汇-语义规则模式从金融新闻文本中提取事件语义标注信息,并将其作为分类特征用于机器学习文本分类中的新方法。实验证明采用该方法相比基于词袋的文本分类方法在采用相同的特征选择算法和分类算法的基础上,F1值提高8.6 %,查准率提高7.7% ,查全率提高8.8%。本文方法融合了知识驱动和数据驱动在文本分类中的优点,同时避免了它们所存在的主要缺点,具有显著的实用性和研究参考价值。  相似文献   

19.
基于近似支持向量机的Web文本分类研究   总被引:1,自引:0,他引:1  
文本分类技术是知识管理系统实现知识有效组织、存储和检索的重要手段.本文提出了一种新的基于近似支持向量机的分类算法,并将该分类算法应用于文本分类分析.实验过程中与现有的分类方法比较,新的分类方法具有训练速度快、分类精度比较高的优点.  相似文献   

20.
利用SMO进行文本分类的核心问题是特征的选择问题,特征选择涉及到哪些特征和选择的特征维度问题。针对以上问题,介绍一种基于主成分分析和信息增益相结合的数据集样本降维的方法,并在此基础上对序贯最小优化算法进行改进,提出降维序贯最小优化(P-SOM)算法。P-SMO算法去掉了冗余维。实验结果证明,该方法提高SMO算法的性能,缩短支持向量机的训练时间,提高支持向量机的分类精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号