首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 46 毫秒
1.
多标签文本分类是一项基础而实用的任务,其目的是为文本分配多个可能的标签。近年来,人们提出了许多基于深度学习的标签关联模型,以结合标签的信息来学习文本的语义表示,取得了良好的分类性能。通过改进标签关联的建模和文本语义表示来推进这一研究方向。一方面,构建的层级图标签表示,除了学习每个标签的局部语义外,还进一步研究多个标签共享的全局语义。另一方面,为了捕捉标签和文本内容间的联系并加以利用,使用标签文本注意机制来引导文本特征的学习过程。在三个多标签基准数据集上的实验表明,该模型与其他方法相比具有更好的分类性能。  相似文献   

2.
现实世界的大量应用,比如文档归类、网页分类、专利分类等,其类别信息(标签)是一个具有层次关系的体系,对它们进行自动分类涉及到在此层次标签体系中选择多个正确的标签,因此形成了一类层次多标签文本分类问题.如何学习和利用这些不同层级的关系、并对分类结果从层级关系遵循性的角度进行评价成为层次多标签分类问题的难点和挑战.本文对层...  相似文献   

3.
该文针对实际中存在对同一句话标注多种序列标签问题,定义了多标签序列标注任务,并提出了一种新的序列图模型。序列图模型主要为了建模两种依赖关系:不同单词在时序维度上面的关系和同一单词在不同任务之间的依赖关系。该文采用LSTM或根据Transformer修改设计的模型处理时序维度上的信息传递。同一单词在不同任务之间使用注意力机制处理不同任务之间的依赖关系,以获得每个单词更好的隐状态表示,并作为下次递归处理的输入。实验表明,该模型不仅能够在Ontonotes 5.0数据集上取得更好的结果,而且可以获取不同任务标签之间可解释的依赖关系。  相似文献   

4.
肖琳  陈博理  黄鑫  刘华锋  景丽萍  于剑 《软件学报》2020,31(4):1079-1089
自大数据蓬勃发展以来,多标签分类一直是令人关注的重要问题,在现实生活中有许多实际应用,如文本分类、图像识别、视频注释、多媒体信息检索等.传统的多标签文本分类算法将标签视为没有语义信息的符号,然而,在许多情况下,文本的标签是具有特定语义的,标签的语义信息和文档的内容信息是有对应关系的,为了建立两者之间的联系并加以利用,提出了一种基于标签语义注意力的多标签文本分类(LAbel Semantic Attention Multi-label Classification,简称LASA)方法,依赖于文档的文本和对应的标签,在文档和标签之间共享单词表示.对于文档嵌入,使用双向长短时记忆(bi-directional long short-term memory,简称Bi-LSTM)获取每个单词的隐表示,通过使用标签语义注意力机制获得文档中每个单词的权重,从而考虑到每个单词对当前标签的重要性.另外,标签在语义空间里往往是相互关联的,使用标签的语义信息同时也考虑了标签的相关性.在标准多标签文本分类的数据集上得到的实验结果表明,所提出的方法能够有效地捕获重要的单词,并且其性能优于当前先进的多标签文本分类...  相似文献   

5.
在多标签文本分类任务中,每个给定的文档都对应一组相关标签。目前主要面临以下三方面问题:(1)对标签-文本和标签-标签关系的联合建模不充分;(2)对标签本身语义的挖掘不足;(3)忽略了对标签内部结构信息的利用。对于以上问题,提出了一种基于联合注意力和共享语义空间的多标签文本分类方法。提出了融合多头注意力机制,该方法旨在同步地对标签与文档的关系和标签之间的关系进行建模,利用两者交互信息的同时避免误差传递。提出了解耦的共享语义空间嵌入方法,改进了利用标签语义信息的方法,使用共享参数的编码器提取标签和文档的语义表示,减少其在建模相关性阶段的偏差。提出了一种基于先验知识的层次提示方法,利用预训练模型中的先验知识增强标签层次结构信息。实验结果表明,该方法在公开数据集上优于目前最先进的多标签文本分类模型。  相似文献   

6.
目前许多多标签文本分类方法主要关注文档表示,而丢失了大量标签相关的语义信息,导致分类效果不理想。针对以上问题,提出一种基于标签推理和注意力融合的分类方法,挖掘文档中与标签相关的特征以及相似标签之间的相关性,学习标签信息进行标签推理,同时采用注意力机制自学习地融合文档表示和标签表示,最终完成多标签分类任务。在AAPD和RCV1-V2数据集上进行实例验证,该方法的F1值分别达到了0.732和0.887,与其他最新方法相比其准确度均有提升,实验结果证明了标签推理和注意力融合策略的有效性。  相似文献   

7.
基于社会化标注的博客标签推荐方法   总被引:1,自引:0,他引:1  
为了提高博客系统推荐标签的质量,分析了现有的标签推荐算法及相关技术,提出了一种基于社会化标注的博客标签推荐方法。该方法的优势在于:利用相似博客的社会化标签作为候选标签集,确保了推荐标签的全面性和可用性;基于TF-IDF相似度方法定义筛选步骤去除候选标签集中冗余和冷僻的标签,提高了推荐标签的准确性和高效性。实验结果表明了该方法的有效性。  相似文献   

8.
随着大数据技术的快速发展,多标签文本分类在司法领域也催生出诸多应用.在法律文本中通常存在多个要素标签,标签之间往往具有相互依赖性或相关性,准确识别这些标签需要多标签分类方法的支持.因此,文中提出融合标签关系的法律文本多标签分类方法.方法构建标签的共现矩阵,利用图卷积网络捕捉标签之间的依赖关系,并结合标签注意力机制,计算法律文本和标签每个词的相关程度,得到特定标签的法律文本语义表示.最后,融合标签图构建的依赖关系和特定标签的法律文本语义表示,对文本进行综合表示,实现文本的多标签分类.在法律数据集上的实验表明,文中方法获得较好的分类精度和稳定性.  相似文献   

9.
针对图像自动标注中因人工选择特征而导致信息缺失的缺点,提出使用卷积神经网络对样本进行自主特征学习。为了适应图像自动标注的多标签学习的特点以及提高对低频词汇的召回率,首先改进卷积神经网络的损失函数,构建一个多标签学习的卷积神经网络(CNN-MLL)模型,然后利用图像标注词间的相关性对网络模型输出结果进行改善。通过在IAPR TC-12标准图像标注数据集上对比了其他传统方法,实验得出,基于采用均方误差函数的卷积神经网络(CNN-MSE)的方法较支持向量机(SVM)方法在平均召回率上提升了12.9%,较反向传播神经网络(BPNN)方法在平均准确率上提升了37.9%;基于标注结果改善的CNN-MLL方法较普通卷积神经网络的平均准确率和平均召回率分别提升了23%和20%。实验结果表明基于标注结果改善的CNN-MLL方法能有效地避免因人工选择特征造成的信息缺失同时增加了对低频词汇的召回率。  相似文献   

10.
如今生活中,图像资源无处不在,海量的图像让人应接不暇。如何快速有效地对这些图像信息进行查询、检索和组织,成为了当前亟需解决的热门问题。而图像自动标注是解决基于文本的图像检索的关键。文中提出的这套基于深度学习模型中的卷积神经网络模型的多标签图像自动标注系统,实现了多标签损失排名函数,完成了多标签数据的训练与测试。在实验验证上,先选取CIFAR-10数据集进行算法的有效性测试,然后选取多标签图像数据集Corel 5k进行定量测试比较,结果表明,该算法的综合性能指标与现有算法相比有较大的提升。  相似文献   

11.
对文本分类中降维技术、提高分类精度和效率的方法进行了研究,提出了一种基于矩阵投影运算的新型文本分类算法——Matrix Projection(MP)分类算法。矩阵运算将训练样例中表示文本特征的三维空间投影到二维空间上,得到归一化向量,有效地达到了降维与精确计算特征项权重的目的。与其他多种文本分类算法对比实验表明,MP算法的分类精度和时间性能都有明显提高,在两套数据集上的宏平均F1值分别达到92.29%和96.03%。  相似文献   

12.
极限多标签文本分类任务具有标签集大、类间关系复杂、数据分布不平衡等特点,是具有挑战性的研究热点。现有模型对标签语义信息利用不足,性能有限。对此,该文提出一种利用层级标签语义信息引导的极限多标签文本分类模型提升策略,在训练和预测过程中给予模型层级标签引导的弱监督语义指导信息,利用这种弱监督信息规约多标签文本分类任务中要对应的多标签语义边界。在标准数据集上的实验结果表明,该文所提策略能够有效提升现有模型性能,尤其在短文本数据集中增效显著,宏精准率最高提升21.23%。  相似文献   

13.
在多标记分类问题当中,多标记分类器的目的是为实例预测一个与其关联的标记集合。典型方法之一是将多标记分类问题转化为多个二类分类问题,这些二类分类器之间可以存在一定的关系。简单地考虑标记间依赖关系可以在一定程度上改善分类性能,但同时计算复杂度也是必须考虑的问题。该文提出了一种利用多标记间依赖关系的有序分类器集合算法,该算法通过启发式的搜索策略寻找分类器之间的某种次序,这种次序可以更好地反映标记间的依赖关系。在实验中,该文选取了来自不同领域的数据集和多个评价指标,实验结果表明该文所提出的算法比一般多标记分类算法具有更好的分类性能。  相似文献   

14.
文本分类作为自然语言处理中一个基本任务,在20世纪50年代就已经对其算法进行了研究,现在单标签文本分类算法已经趋向成熟,但是对于多标签文本分类的研究还有很大的提升空间.介绍了多标签文本分类的基本概念以及基本流程,包括数据集获取、文本预处理、模型训练和预测结果.介绍了多标签文本分类的方法.这些方法主要分为两大类:传统机器...  相似文献   

15.
近年来,多标签分类任务(MLC)受到了广泛关注。传统的情感预测被视为一种单标签的监督学习,而忽视了多种情感可能在同一实例中共存的问题。以往的多标签情感预测方法没有同时提取文本的局部特征和全局语义信息,或未考虑标签之间的相关性。基于此,该文提出了一种基于神经网络融合标签相关性的多标签情感预测模型(Label-CNNLSTMAttention,L-CLA),利用Word2Vec方法训练词向量,将CNN和LSTM相结合,通过CNN层挖掘文本更深层次的词语特征,通过LSTM层学习词语之间的长期依赖关系,利用Attention机制为情意词特征分配更高的权重。同时,用标签相关矩阵将标签特征向量补全后与文本特征共同作为分类器的输入,考察了标签之间的相关性。实验结果表明,L-CLA模型在重新标注后的NLP&CC2013数据集上拥有较好的分类效果。  相似文献   

16.
基于深度学习的多标签文本分类方法存在两个主要缺陷:缺乏对文本信息多粒度的学习,以及对标签间约束性关系的利用.针对这些问题,提出一种多粒度信息关系增强的多标签文本分类方法.首先,通过联合嵌入的方式将文本与标签嵌入到同一空间,并利用BERT预训练模型获得文本和标签的隐向量特征表示.然后,构建3个多粒度信息关系增强模块:文档级信息浅层标签注意力分类模块、词级信息深层标签注意力分类模块和标签约束性关系匹配辅助模块.其中,前两个模块针对共享特征表示进行多粒度学习:文档级文本信息与标签信息浅层交互学习,以及词级文本信息与标签信息深层交互学习.辅助模块通过学习标签间关系来提升分类性能.最后,所提方法在3个代表性数据集上,与当前主流的多标签文本分类算法进行了比较.结果表明,在主要指标Micro-F1、MacroF1、nDCG@k、P@k上均达到了最佳效果.  相似文献   

17.
多标签文本分类是指从一个极大的标签集合中为每个文档分配最相关的多个标签。该文提出一种多类型注意力机制下参数自适应模型(Parameter Adaptive Model under Multi-strategy Attention Mechanism, MSAPA)对文档进行建模和分类。MSAPA模型主要包括两部分:第一部分采用多类型注意力机制分别提取融合自注意力机制的全局关键词特征和局部关键词特征及融合标签注意力机制的全局关键词特征和局部关键词特征;第二部分采用多参数自适应策略为多类型注意力机制动态分配不同的权重,从而学习到更优的文本表示,提升分类的准确率。在AAPD和RCV1两个基准数据集上的大量实验证明了MSAPA模型的优越性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号