首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 93 毫秒
1.
传统的多标签文本分类算法在挖掘标签的关联信息和提取文本与标签之间的判别信息过程中存在不足,由此提出一种基于标签组合的预训练模型与多粒度融合注意力的多标签文本分类算法。通过标签组合的预训练模型训练得到具有标签关联性的文本编码器,使用门控融合策略融合预训练语言模型和词向量得到词嵌入表示,送入预训练编码器中生成基于标签语义的文本表征。通过自注意力和多层空洞卷积增强的标签注意力分别得到全局信息和细粒度语义信息,自适应融合后输入到多层感知机进行多标签预测。在特定威胁识别数据集和两个通用多标签文本分类数据集上的实验结果表明,提出的方法在能够有效捕捉标签与文本之间的关联信息,并在F1值、汉明损失和召回率上均取得了明显提升。  相似文献   

2.
肖琳  陈博理  黄鑫  刘华锋  景丽萍  于剑 《软件学报》2020,31(4):1079-1089
自大数据蓬勃发展以来,多标签分类一直是令人关注的重要问题,在现实生活中有许多实际应用,如文本分类、图像识别、视频注释、多媒体信息检索等.传统的多标签文本分类算法将标签视为没有语义信息的符号,然而,在许多情况下,文本的标签是具有特定语义的,标签的语义信息和文档的内容信息是有对应关系的,为了建立两者之间的联系并加以利用,提出了一种基于标签语义注意力的多标签文本分类(LAbel Semantic Attention Multi-label Classification,简称LASA)方法,依赖于文档的文本和对应的标签,在文档和标签之间共享单词表示.对于文档嵌入,使用双向长短时记忆(bi-directional long short-term memory,简称Bi-LSTM)获取每个单词的隐表示,通过使用标签语义注意力机制获得文档中每个单词的权重,从而考虑到每个单词对当前标签的重要性.另外,标签在语义空间里往往是相互关联的,使用标签的语义信息同时也考虑了标签的相关性.在标准多标签文本分类的数据集上得到的实验结果表明,所提出的方法能够有效地捕获重要的单词,并且其性能优于当前先进的多标签文本分类...  相似文献   

3.
多标签文本分类问题是多标签分类的重要分支之一,现有的方法往往忽视了标签之间的关系,难以有效利用标签之间存在着的相关性,从而影响分类效果.基于此,本文提出一种融合BERT和图注意力网络的模型HBGA(hybrid BERT and graph attention):首先,利用BERT获得输入文本的上下文向量表示,然后用Bi-LSTM和胶囊网络分别提取文本全局特征和局部特征,通过特征融合方法构建文本特征向量,同时,通过图来建模标签之间的相关性,用图中的节点表示标签的词嵌入,通过图注意力网络将这些标签向量映射到一组相互依赖的分类器中,最后,将分类器应用到特征提取模块获得的文本特征进行端到端的训练,综合分类器和特征信息得到最终的预测结果.在Reuters-21578和AAPD两个数据集上面进行了对比实验,实验结果表明,本文模型在多标签文本分类任务上得到了有效的提升.  相似文献   

4.
多标签文本分类旨在从若干标签中选取最相关的标签子集来标记一个样本点.传统的研究倾向于探讨标签间关系而忽略标签语义,造成信息提取不完整,因此如何利用标签元数据有效提取样本中的关键信息是需要解决的一个重要问题.为解决上述问题,本文首先提出从现有数据集中生成标签语义元数据的方法,利用注意力模型对样本中混杂的语义进行筛选和清洗,生成标签的语义信息,解决了标签语义获取困难的问题.其次提出combined-attention模型用以提取样本中的关键信息,此模型将标签语义和标签关系结合起来共同提取样本中的信息,并且其内部设置了自适应融合单元,将以上两种关键信息根据其在分类结果中的关键程度自适应分配权重,进一步提升了模型的分类能力.3个英文数据集上的实验结果表明本模型优于最先进的基线方法,在分类精度上最高提升了5.68%,在真实的中文法律数据集上也实现了优异的分类效果.  相似文献   

5.
随着大数据技术的快速发展,多标签文本分类在司法领域也催生出诸多应用.在法律文本中通常存在多个要素标签,标签之间往往具有相互依赖性或相关性,准确识别这些标签需要多标签分类方法的支持.因此,文中提出融合标签关系的法律文本多标签分类方法.方法构建标签的共现矩阵,利用图卷积网络捕捉标签之间的依赖关系,并结合标签注意力机制,计算法律文本和标签每个词的相关程度,得到特定标签的法律文本语义表示.最后,融合标签图构建的依赖关系和特定标签的法律文本语义表示,对文本进行综合表示,实现文本的多标签分类.在法律数据集上的实验表明,文中方法获得较好的分类精度和稳定性.  相似文献   

6.
多标签文本分类是指从一个极大的标签集合中为每个文档分配最相关的多个标签。该文提出一种多类型注意力机制下参数自适应模型(Parameter Adaptive Model under Multi-strategy Attention Mechanism, MSAPA)对文档进行建模和分类。MSAPA模型主要包括两部分:第一部分采用多类型注意力机制分别提取融合自注意力机制的全局关键词特征和局部关键词特征及融合标签注意力机制的全局关键词特征和局部关键词特征;第二部分采用多参数自适应策略为多类型注意力机制动态分配不同的权重,从而学习到更优的文本表示,提升分类的准确率。在AAPD和RCV1两个基准数据集上的大量实验证明了MSAPA模型的优越性。  相似文献   

7.
多标签文本分类(MLTC)是自然语言处理(NLP)领域的重要子课题之一.针对多个标签之间存在复杂关联性的问题,提出了一种融合BERT与标签语义注意力的MLTC方法TLA-BERT.首先,通过对自编码预训练模型进行微调,从而学习输入文本的上下文向量表示;然后,使用长短期记忆(LSTM)神经网络将标签进行单独编码;最后,利...  相似文献   

8.
多标签文本分类是一项基础而实用的任务,其目的是为文本分配多个可能的标签。近年来,人们提出了许多基于深度学习的标签关联模型,以结合标签的信息来学习文本的语义表示,取得了良好的分类性能。通过改进标签关联的建模和文本语义表示来推进这一研究方向。一方面,构建的层级图标签表示,除了学习每个标签的局部语义外,还进一步研究多个标签共享的全局语义。另一方面,为了捕捉标签和文本内容间的联系并加以利用,使用标签文本注意机制来引导文本特征的学习过程。在三个多标签基准数据集上的实验表明,该模型与其他方法相比具有更好的分类性能。  相似文献   

9.
针对当前大多数分类算法忽略标签之间相关性的问题,提出一种基于双向长短时记忆(Bi-LSTM)网络和图注意力网络(Graph Attention Network, GAT)的多标签文本分类算法。使用词嵌入工具对文本序列和标签中的词向量进行预处理后的文本序列和标签分别输入到Bi-LSTM网络和GAT网络中;提取文本序列的上下文信息和全局特征,以及GAT网络捕获标签之间的相关性;将特征向量和标签相关性进行组合对标签文本分类任务进行预测。实验结果表明,所提算法通过有效关注标签之间的相关性使得文本分类任务的精度得以明显提高,在多个评估指标的测试结果优于其他对比方法。  相似文献   

10.
现实世界的大量应用,比如文档归类、网页分类、专利分类等,其类别信息(标签)是一个具有层次关系的体系,对它们进行自动分类涉及到在此层次标签体系中选择多个正确的标签,因此形成了一类层次多标签文本分类问题.如何学习和利用这些不同层级的关系、并对分类结果从层级关系遵循性的角度进行评价成为层次多标签分类问题的难点和挑战.本文对层...  相似文献   

11.
任炜  白鹤翔 《计算机应用》2022,42(5):1383-1390
针对多标签图像分类任务中存在的难以对标签间的相互作用建模和全局标签关系固化的问题,结合自注意力机制和知识蒸馏(KD)方法,提出了一种基于全局与局部标签关系的多标签图像分类方法(ML-GLLR)。首先,局部标签关系(LLR)模型使用卷积神经网络(CNN)、语义模块和双层自注意力(DLSA)模块对局部标签关系建模;然后,利用KD方法使LLR学习全局标签关系。在公开数据集MSCOCO2014和VOC2007上进行实验,LLR相较于基于图卷积神经网络多标签图像分类(ML-GCN)方法,在平均精度均值(mAP)上分别提高了0.8个百分点和0.6个百分点,ML-GLLR相较于LLR在mAP上分别进一步提高了0.2个百分点和1.3个百分点。实验结果表明,所提ML-GLLR不仅能对标签间的相互关系进行建模,也能避免全局标签关系固化的问题。  相似文献   

12.
目的 螺栓是确保输电线路安全牢靠的基石,螺栓缺销、松动和锈蚀等缺陷是造成输电线路损坏甚至重大事故的重要原因之一。本文针对螺栓缺陷存在视觉不可分的问题,提出了一种改进NTS-Net(navigator-teacher-scrutinizer network)的螺栓属性多标签分类方法。方法 为了增强模型对不规则轮廓的处理能力,采用可变形卷积的ResNet-50网络作为特征提取网络从原图中提取全局特征。利用NTS-Net学习得到图像信息量最大的判别性局部区域。为了考虑不同局部特征对不同属性标签的不同影响,在局部特征与全局特征融合时引入通道注意力机制,提取特征的通道权重,获取关键通道特征以改善多标签分类效果。结果 实验结果表明,本文在螺栓多属性分类数据集上的平均分类精确率为84.5%,比采用传统的多标签分类精确率提升了10%~20%。结论 本文通过可变形卷积提升网络的特征提取能力以及引入通道注意力机制实现了对NTS-Net提供的局部特征的高效利用,为解决螺栓多属性分类中存在的问题提供了一种新的思路。  相似文献   

13.
基于深度学习的多标签文本分类方法存在两个主要缺陷:缺乏对文本信息多粒度的学习,以及对标签间约束性关系的利用.针对这些问题,提出一种多粒度信息关系增强的多标签文本分类方法.首先,通过联合嵌入的方式将文本与标签嵌入到同一空间,并利用BERT预训练模型获得文本和标签的隐向量特征表示.然后,构建3个多粒度信息关系增强模块:文档级信息浅层标签注意力分类模块、词级信息深层标签注意力分类模块和标签约束性关系匹配辅助模块.其中,前两个模块针对共享特征表示进行多粒度学习:文档级文本信息与标签信息浅层交互学习,以及词级文本信息与标签信息深层交互学习.辅助模块通过学习标签间关系来提升分类性能.最后,所提方法在3个代表性数据集上,与当前主流的多标签文本分类算法进行了比较.结果表明,在主要指标Micro-F1、MacroF1、nDCG@k、P@k上均达到了最佳效果.  相似文献   

14.
李兆玉  王纪超  雷曼  龚琴 《计算机应用》2018,38(10):2807-2811
针对多标签分类算法不能充分利用标签相关性的问题,通过建立标签的正、负相关性矩阵来挖掘标签间不同的相关关系,提出一种基于引力模型的多标签分类算法(MLBGM)。首先,遍历训练集中所有样本并分别求取每个训练样本的k个近邻样本,组成该样本的近邻集合;其次,根据每个样本的近邻集合中所有近邻样本的标签分布情况,分别为每个训练样本建立正、负相关矩阵来获取标签间的相关性;然后,为每个训练样本的近邻集合计算其近邻密度和近邻权重;最后,采用计算数据粒子间相互作用力的方式构建多标签分类模型。实验结果显示,MLBGM与5种未考虑标签负相关的对比算法相比,汉明损失(HammingLoss)平均降低了15.62%,微平均F1值(MicroF1)平均提升了7.12%,子集准确率(SubsetAccurary)平均提升了14.88%。MLBGM充分利用了标签间不同的相关性,获得了有效的实验结果且分类效果优于未考虑标签负相关的对比算法。  相似文献   

15.
目的 在高光谱地物分类中,混合像元在两个方面给单标签分类带来了负面影响:单类地物在混入异类地物后,其光谱特征会发生改变,失去独特性,使类内差异变大;多类地物在混合比例加深的情况下,光谱曲线会互相趋近,使类间差异变小。为了解决这一问题,本文将多标签技术运用在高光谱分类中。方法 基于高光谱特性,本文将欧氏距离与光谱角有机结合运用到基于类属属性的多标签学习LIFT(multi-label learning with label specific features)算法的类属属性构建中,形成了适合高光谱多标签的方法。基于标签地位的不相等,本文为多标签数据标注丰度最大标签,并在K最近邻KNN(k-nearest neighbor)算法中为丰度最大的标签设置比其余标签更大的权重,完成对最大丰度标签的分类。结果 在多标签分类与单标签分类的比较中,多标签表现更优,且多标签在precision指标上表现良好,高于单标签0.5% 1.5%。在与其余4种多标签方法的比较中,本文多标签方法在2个数据集上表现最优,在剩余1个数据集上表现次优。在最大丰度标签的分类上,本文方法表现优于单标签分类,在数据集Jasper Ridge上的总体分类精度提高0.2%,混合像元分类精度提高0.5%。结论 多标签分类技术应用在高光谱地物分类上是可行的,可以提升分类效果。本文方法根据高光谱数据的特性对LIFT方法进行了改造,在高光谱多标签分类上表现优异。高光谱地物的多标签分类中,每个像元多个标签的地位不同,在分类中可以通过设置不同权重体现该性质,提升分类精度。  相似文献   

16.
传统的文本分类方法大多数使用单一的分类器,而不同的分类器对分类任务的侧重点不同,就使得单一的分类方法有一定的局限性,同时每个特征提取方法对特征词的考虑角度不同。针对以上问题,提出了多类型分类器融合的文本分类方法。该模型使用了word2vec、主成分分析、潜在语义索引以及TFIDF特征提取方法作为多类型分类器融合的特征提取方法。并在多类型分类器加权投票方法中忽略了类别信息的问题,提出了类别加权的分类器权重计算方法。通过实验结果表明,多类型分类器融合方法在二元语料库、多元语料库以及特定语料库上都取得了很好的性能,类别加权的分类器权重计算方法比多类型分类器融合方法在分类性能方面提高了1.19%。  相似文献   

17.
在传统的多标签文本标注领域中,面临着维数灾难和双信息源数据的问题。针对这两个问题,提出一种基于双视角投影空间表示的文本多标签标注方法,通过交替方向乘子法和Bregman迭代对目标函数进行优化求解,得到低维的隐语义投影空间。在雅虎和路透社的新闻数据集上的实验结果验证表明,该方法在解决文本多标签标注问题上性能有明显的提高,其在召回率、覆盖误差和排名平均精度方面优于近年来的其他方法,可应用于新闻推荐,标签系统和情感分析等场景中。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号