首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
肖琳  陈博理  黄鑫  刘华锋  景丽萍  于剑 《软件学报》2020,31(4):1079-1089
自大数据蓬勃发展以来,多标签分类一直是令人关注的重要问题,在现实生活中有许多实际应用,如文本分类、图像识别、视频注释、多媒体信息检索等.传统的多标签文本分类算法将标签视为没有语义信息的符号,然而,在许多情况下,文本的标签是具有特定语义的,标签的语义信息和文档的内容信息是有对应关系的,为了建立两者之间的联系并加以利用,提出了一种基于标签语义注意力的多标签文本分类(LAbel Semantic Attention Multi-label Classification,简称LASA)方法,依赖于文档的文本和对应的标签,在文档和标签之间共享单词表示.对于文档嵌入,使用双向长短时记忆(bi-directional long short-term memory,简称Bi-LSTM)获取每个单词的隐表示,通过使用标签语义注意力机制获得文档中每个单词的权重,从而考虑到每个单词对当前标签的重要性.另外,标签在语义空间里往往是相互关联的,使用标签的语义信息同时也考虑了标签的相关性.在标准多标签文本分类的数据集上得到的实验结果表明,所提出的方法能够有效地捕获重要的单词,并且其性能优于当前先进的多标签文本分类...  相似文献   

2.
针对标签随着时间变化的动态多标签文本分类问题,提出了一种基于标签语义相似的动态多标签文本分类算法。该算法在训练阶段,首先按照标签固定训练得到一个基于卷积神经网络的多标签文本分类器,然后以该分类器的倒数第二层的输出为文本的特征向量。由于该特征向量是在有标签训练得到的,因而相对于基于字符串即文本内容而言,该特征向量含有标签语义信息。在测试阶段,将测试文档输入训练阶段的多标签文本分类器获取相应的特征向量,然后计算相似性,同时乘以时间衰减因子修正,使得时间越近的文本具有较高的相似性。最后,采用最近邻算法分类。实验结果表明,该算法在处理动态多标签文本分类问题上具有较优的性能。  相似文献   

3.
极限多标签文本分类任务具有标签集大、类间关系复杂、数据分布不平衡等特点,是具有挑战性的研究热点。现有模型对标签语义信息利用不足,性能有限。对此,该文提出一种利用层级标签语义信息引导的极限多标签文本分类模型提升策略,在训练和预测过程中给予模型层级标签引导的弱监督语义指导信息,利用这种弱监督信息规约多标签文本分类任务中要对应的多标签语义边界。在标准数据集上的实验结果表明,该文所提策略能够有效提升现有模型性能,尤其在短文本数据集中增效显著,宏精准率最高提升21.23%。  相似文献   

4.
多标签文本分类旨在从若干标签中选取最相关的标签子集来标记一个样本点.传统的研究倾向于探讨标签间关系而忽略标签语义,造成信息提取不完整,因此如何利用标签元数据有效提取样本中的关键信息是需要解决的一个重要问题.为解决上述问题,本文首先提出从现有数据集中生成标签语义元数据的方法,利用注意力模型对样本中混杂的语义进行筛选和清洗,生成标签的语义信息,解决了标签语义获取困难的问题.其次提出combined-attention模型用以提取样本中的关键信息,此模型将标签语义和标签关系结合起来共同提取样本中的信息,并且其内部设置了自适应融合单元,将以上两种关键信息根据其在分类结果中的关键程度自适应分配权重,进一步提升了模型的分类能力.3个英文数据集上的实验结果表明本模型优于最先进的基线方法,在分类精度上最高提升了5.68%,在真实的中文法律数据集上也实现了优异的分类效果.  相似文献   

5.
在多标签文本分类任务中,每个给定的文档都对应一组相关标签。目前主要面临以下三方面问题:(1)对标签-文本和标签-标签关系的联合建模不充分;(2)对标签本身语义的挖掘不足;(3)忽略了对标签内部结构信息的利用。对于以上问题,提出了一种基于联合注意力和共享语义空间的多标签文本分类方法。提出了融合多头注意力机制,该方法旨在同步地对标签与文档的关系和标签之间的关系进行建模,利用两者交互信息的同时避免误差传递。提出了解耦的共享语义空间嵌入方法,改进了利用标签语义信息的方法,使用共享参数的编码器提取标签和文档的语义表示,减少其在建模相关性阶段的偏差。提出了一种基于先验知识的层次提示方法,利用预训练模型中的先验知识增强标签层次结构信息。实验结果表明,该方法在公开数据集上优于目前最先进的多标签文本分类模型。  相似文献   

6.
多标签文本分类(MLTC)是自然语言处理(NLP)领域的重要子课题之一.针对多个标签之间存在复杂关联性的问题,提出了一种融合BERT与标签语义注意力的MLTC方法TLA-BERT.首先,通过对自编码预训练模型进行微调,从而学习输入文本的上下文向量表示;然后,使用长短期记忆(LSTM)神经网络将标签进行单独编码;最后,利...  相似文献   

7.
随着大数据技术的快速发展,多标签文本分类在司法领域也催生出诸多应用.在法律文本中通常存在多个要素标签,标签之间往往具有相互依赖性或相关性,准确识别这些标签需要多标签分类方法的支持.因此,文中提出融合标签关系的法律文本多标签分类方法.方法构建标签的共现矩阵,利用图卷积网络捕捉标签之间的依赖关系,并结合标签注意力机制,计算法律文本和标签每个词的相关程度,得到特定标签的法律文本语义表示.最后,融合标签图构建的依赖关系和特定标签的法律文本语义表示,对文本进行综合表示,实现文本的多标签分类.在法律数据集上的实验表明,文中方法获得较好的分类精度和稳定性.  相似文献   

8.
文本分类作为自然语言处理中一个基本任务,在20世纪50年代就已经对其算法进行了研究,现在单标签文本分类算法已经趋向成熟,但是对于多标签文本分类的研究还有很大的提升空间.介绍了多标签文本分类的基本概念以及基本流程,包括数据集获取、文本预处理、模型训练和预测结果.介绍了多标签文本分类的方法.这些方法主要分为两大类:传统机器...  相似文献   

9.
传统的多标签文本分类算法在挖掘标签的关联信息和提取文本与标签之间的判别信息过程中存在不足,由此提出一种基于标签组合的预训练模型与多粒度融合注意力的多标签文本分类算法。通过标签组合的预训练模型训练得到具有标签关联性的文本编码器,使用门控融合策略融合预训练语言模型和词向量得到词嵌入表示,送入预训练编码器中生成基于标签语义的文本表征。通过自注意力和多层空洞卷积增强的标签注意力分别得到全局信息和细粒度语义信息,自适应融合后输入到多层感知机进行多标签预测。在特定威胁识别数据集和两个通用多标签文本分类数据集上的实验结果表明,提出的方法在能够有效捕捉标签与文本之间的关联信息,并在F1值、汉明损失和召回率上均取得了明显提升。  相似文献   

10.
目前许多多标签文本分类方法主要关注文档表示,而丢失了大量标签相关的语义信息,导致分类效果不理想。针对以上问题,提出一种基于标签推理和注意力融合的分类方法,挖掘文档中与标签相关的特征以及相似标签之间的相关性,学习标签信息进行标签推理,同时采用注意力机制自学习地融合文档表示和标签表示,最终完成多标签分类任务。在AAPD和RCV1-V2数据集上进行实例验证,该方法的F1值分别达到了0.732和0.887,与其他最新方法相比其准确度均有提升,实验结果证明了标签推理和注意力融合策略的有效性。  相似文献   

11.
现实世界的大量应用,比如文档归类、网页分类、专利分类等,其类别信息(标签)是一个具有层次关系的体系,对它们进行自动分类涉及到在此层次标签体系中选择多个正确的标签,因此形成了一类层次多标签文本分类问题.如何学习和利用这些不同层级的关系、并对分类结果从层级关系遵循性的角度进行评价成为层次多标签分类问题的难点和挑战.本文对层...  相似文献   

12.
李楚贞  江涛 《软件》2024,(2):44-46
作为多标签文本分类的一个重要步骤,目前特征提取方法已取得重大进展,但基于深度学习的特征提取方法存在获取特征单一、不全面等问题,因此,本文提出新的特征融合提取模型,即使用BiGRU提取文本的全局特征,Capsule network提取文本的局部特征和位置信息,同时使用TF-IDF提取文本的统计特征。实验证明该模型在公共数据集RCV1-V2和AAPD上的性能都得到改进。  相似文献   

13.
多标签文本分类是一项基础而实用的任务,其目的是为文本分配多个可能的标签。近年来,人们提出了许多基于深度学习的标签关联模型,以结合标签的信息来学习文本的语义表示,取得了良好的分类性能。通过改进标签关联的建模和文本语义表示来推进这一研究方向。一方面,构建的层级图标签表示,除了学习每个标签的局部语义外,还进一步研究多个标签共享的全局语义。另一方面,为了捕捉标签和文本内容间的联系并加以利用,使用标签文本注意机制来引导文本特征的学习过程。在三个多标签基准数据集上的实验表明,该模型与其他方法相比具有更好的分类性能。  相似文献   

14.
多标签文本分类旨在为文本分配多个标签,其关键挑战在于如何利用标签之间的关联性.目前方法主要采用循环神经网络相比传统方法能更好地建模标签高阶关联,但存在难以确定标签顺序的问题,以及缺乏对标签关联程度进行建模.为此,论文提出一种基于改进图循环神经网络的多标签文本分类方法.首先,根据标签共现构建标签图数据,然后将多标签分类转换为标签图生成,最后通过广度优先搜索将生成的标签图转回为标签集,作为分类结果.相关实验表明,论文提出的模型在instance-F1和label-F1指标上优于基线模型,细粒度建模了标签关联,同时减少了模型对于标签顺序的依赖.  相似文献   

15.
基于深度学习的多标签文本分类方法存在两个主要缺陷:缺乏对文本信息多粒度的学习,以及对标签间约束性关系的利用.针对这些问题,提出一种多粒度信息关系增强的多标签文本分类方法.首先,通过联合嵌入的方式将文本与标签嵌入到同一空间,并利用BERT预训练模型获得文本和标签的隐向量特征表示.然后,构建3个多粒度信息关系增强模块:文档级信息浅层标签注意力分类模块、词级信息深层标签注意力分类模块和标签约束性关系匹配辅助模块.其中,前两个模块针对共享特征表示进行多粒度学习:文档级文本信息与标签信息浅层交互学习,以及词级文本信息与标签信息深层交互学习.辅助模块通过学习标签间关系来提升分类性能.最后,所提方法在3个代表性数据集上,与当前主流的多标签文本分类算法进行了比较.结果表明,在主要指标Micro-F1、MacroF1、nDCG@k、P@k上均达到了最佳效果.  相似文献   

16.
林呈宇  王雷  薛聪 《计算机应用》2023,43(2):335-342
针对弱监督文本分类任务中存在的类别词表噪声和标签噪声问题,提出了一种标签语义增强的弱监督文本分类模型。首先,基于单词上下文语义表示对类别词表去噪,从而构建高度准确的类别词表;然后,构建基于MASK机制的词类别预测任务对预训练模型BERT进行微调,以学习单词与类别的关系;最后,利用引入标签语义的自训练模块来充分利用所有数据信息并减少标签噪声的影响,以实现词级到句子级语义的转换,从而准确预测文本序列类别。实验结果表明,与目前最先进的弱监督文本分类模型LOTClass相比,所提方法在THUCNews、AG News和IMDB公开数据集上,分类准确率分别提高了5.29、1.41和1.86个百分点。  相似文献   

17.
本文针对词粒度注意力的缺点,通过借鉴HAN层次化注意力机制的思想,提出将层次化注意力机制运用于编码器层中,进而得到句子粒度的隐藏层状态信息;在此基础上,解码器层基于句子粒度的隐藏层状态信息进行注意力操作;采用辅助向量的方法避免了序列生成过程存在的重复标签生成问题。最后通过引入开源数据集进行了有效性验证。  相似文献   

18.
刘茂旺  林世平 《福建电脑》2006,(3):103-104,100
随着因特网的迅猛发展,如何快捷、准确地识别和获取有用信息显得越来越重要。文本自动分类系统是信息处理的重要研究方向,它是指在给定的分类体系下.根据文本的内容自动判别文本类别的过程。由于一个文本可能属于多个不同的类别.本文应用BOOSTING算法设计实现了一种多类多标签文本分类方法,并着重时迭代次数和判定阚值的选择进行研究。实验表明.该分类器对多类多标签的文本分类是有效的。  相似文献   

19.
多标签文本分类问题是多标签分类的重要分支之一,现有的方法往往忽视了标签之间的关系,难以有效利用标签之间存在着的相关性,从而影响分类效果.基于此,本文提出一种融合BERT和图注意力网络的模型HBGA(hybrid BERT and graph attention):首先,利用BERT获得输入文本的上下文向量表示,然后用Bi-LSTM和胶囊网络分别提取文本全局特征和局部特征,通过特征融合方法构建文本特征向量,同时,通过图来建模标签之间的相关性,用图中的节点表示标签的词嵌入,通过图注意力网络将这些标签向量映射到一组相互依赖的分类器中,最后,将分类器应用到特征提取模块获得的文本特征进行端到端的训练,综合分类器和特征信息得到最终的预测结果.在Reuters-21578和AAPD两个数据集上面进行了对比实验,实验结果表明,本文模型在多标签文本分类任务上得到了有效的提升.  相似文献   

20.
现有基于神经网络的多标签文本分类研究方法存在两方面不足,一是不能全面提取文本信息特征,二是很少从图结构数据中挖掘全局标签之间的关联性。针对以上两个问题,提出融合卷积神经网络-自注意力机制(CNNSAM)与图注意力网络(GAT)的多标签文本分类模型(CS-GAT)。该模型利用多层卷积神经网络与自注意力机制充分提取文本局部与全局信息并进行融合,得到更为全面的特征向量表示;同时将不同文本标签之间的关联性转变为具有全局信息的边加权图,利用多层图注意力机制自动学习不同标签之间的关联程度,将其与文本上下文语义信息进行交互,获取具有文本语义联系的全局标签信息表示;使用自适应融合策略进一步提取两者特征信息,提高模型的泛化能力。在AAPD、RCV1-V2与EUR-Lex三个公开英文数据集上的实验结果表明,该模型所达到的多标签分类效果明显优于其他主流基线模型。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号