首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
目前基于分层图注意力网络的单标签文本分类任务存在2方面不足:一是不能较好地对文本特征进行提取;二是很少有研究通过文本与标签之间的联系进一步凸显文本特征。针对这2个问题,提出一种融合标签信息的分层图注意力网络文本分类模型。该模型依据句子关键词与主题关联性构建邻接矩阵,然后使用词级图注意力网络获取句子的向量表示。该模型是以随机初始化的目标向量为基础,同时利用最大池化提取句子特定的目标向量,使得获取的句子向量具有更加明显的类别特征。在词级图注意力层之后使用句子级图注意力网络获取具有词权重信息的新文本表示,并通过池化层得到文本的特征信息。另一方面利用GloVe预训练词向量对所有文本标注的标签信息进行初始化向量表示,然后将其与文本的特征信息进行交互、融合,以减少原有特征损失,得到区别于不同文本的特征表示。在R52、R8、20NG、Ohsumed及MR 5个公开数据集上的实验结果表明,该模型的分类准确率明显优于其它主流基线模型的。  相似文献   

2.
随着大数据技术的快速发展,多标签文本分类在司法领域也催生出诸多应用.在法律文本中通常存在多个要素标签,标签之间往往具有相互依赖性或相关性,准确识别这些标签需要多标签分类方法的支持.因此,文中提出融合标签关系的法律文本多标签分类方法.方法构建标签的共现矩阵,利用图卷积网络捕捉标签之间的依赖关系,并结合标签注意力机制,计算法律文本和标签每个词的相关程度,得到特定标签的法律文本语义表示.最后,融合标签图构建的依赖关系和特定标签的法律文本语义表示,对文本进行综合表示,实现文本的多标签分类.在法律数据集上的实验表明,文中方法获得较好的分类精度和稳定性.  相似文献   

3.
现有基于神经网络的多标签文本分类研究方法存在两方面不足,一是不能全面提取文本信息特征,二是很少从图结构数据中挖掘全局标签之间的关联性。针对以上两个问题,提出融合卷积神经网络-自注意力机制(CNNSAM)与图注意力网络(GAT)的多标签文本分类模型(CS-GAT)。该模型利用多层卷积神经网络与自注意力机制充分提取文本局部与全局信息并进行融合,得到更为全面的特征向量表示;同时将不同文本标签之间的关联性转变为具有全局信息的边加权图,利用多层图注意力机制自动学习不同标签之间的关联程度,将其与文本上下文语义信息进行交互,获取具有文本语义联系的全局标签信息表示;使用自适应融合策略进一步提取两者特征信息,提高模型的泛化能力。在AAPD、RCV1-V2与EUR-Lex三个公开英文数据集上的实验结果表明,该模型所达到的多标签分类效果明显优于其他主流基线模型。  相似文献   

4.
针对当前大多数分类算法忽略标签之间相关性的问题,提出一种基于双向长短时记忆(Bi-LSTM)网络和图注意力网络(Graph Attention Network, GAT)的多标签文本分类算法。使用词嵌入工具对文本序列和标签中的词向量进行预处理后的文本序列和标签分别输入到Bi-LSTM网络和GAT网络中;提取文本序列的上下文信息和全局特征,以及GAT网络捕获标签之间的相关性;将特征向量和标签相关性进行组合对标签文本分类任务进行预测。实验结果表明,所提算法通过有效关注标签之间的相关性使得文本分类任务的精度得以明显提高,在多个评估指标的测试结果优于其他对比方法。  相似文献   

5.
在数据集不包含标签文本信息时,现有的显式交互分类模型无法显式计算文本单词和标签之间的语义关系.针对此问题,文中提出标签指导的双注意力深度神经网络模型.首先,提出基于逆标签频次的自动类别标签描述生成方法,为每个标签生成特定的标签描述,用于显式计算文本单词与标签之间的语义关系.在此基础上,使用文本编码器学习具有上下文语境信息的评论文本表示,并提出标签指导的双注意力网络,分别学习基于自注意力的文本表示和基于标签注意力的文本表示.然后,使用自适应门控机制融合这两个文本表示,得到文本最终表示.最后,使用两层前馈神经网络作为分类器,进行情感分类.在3个公开的真实数据集上的实验表明,文中模型分类效果较优,可减少计算代价和训练时长.  相似文献   

6.
传统的多标签文本分类算法在挖掘标签的关联信息和提取文本与标签之间的判别信息过程中存在不足,由此提出一种基于标签组合的预训练模型与多粒度融合注意力的多标签文本分类算法。通过标签组合的预训练模型训练得到具有标签关联性的文本编码器,使用门控融合策略融合预训练语言模型和词向量得到词嵌入表示,送入预训练编码器中生成基于标签语义的文本表征。通过自注意力和多层空洞卷积增强的标签注意力分别得到全局信息和细粒度语义信息,自适应融合后输入到多层感知机进行多标签预测。在特定威胁识别数据集和两个通用多标签文本分类数据集上的实验结果表明,提出的方法在能够有效捕捉标签与文本之间的关联信息,并在F1值、汉明损失和召回率上均取得了明显提升。  相似文献   

7.
张小川  戴旭尧  刘璐  冯天硕 《计算机应用》2020,40(12):3485-3489
针对中文短文本缺乏上下文信息导致的语义模糊从而存在的特征稀疏问题,提出了一种融合卷积神经网络和多头自注意力机制(CNN-MHA)的文本分类模型。首先,借助现有的基于Transformer的双向编码器表示(BERT)预训练语言模型以字符级向量形式来格式化表示句子层面的短文本;然后,为降低噪声,采用多头自注意力机制(MHA)学习文本序列内部的词依赖关系并生成带有全局语义信息的隐藏层向量,再将隐藏层向量输入到卷积神经网络(CNN)中,从而生成文本分类特征向量;最后,为提升分类的优化效果,将卷积层的输出与BERT模型提取的句特征进行特征融合后输入到分类器里进行再分类。将CNN-MHA模型分别与TextCNN、BERT、TextRCNN模型进行对比,实验结果表明,改进模型在搜狐新闻数据集上的F1值表现和对比模型相比分别提高了3.99%、0.76%和2.89%,验证了改进模型的有效性。  相似文献   

8.
多标签文本分类(MLTC)是自然语言处理(NLP)领域的重要子课题之一.针对多个标签之间存在复杂关联性的问题,提出了一种融合BERT与标签语义注意力的MLTC方法TLA-BERT.首先,通过对自编码预训练模型进行微调,从而学习输入文本的上下文向量表示;然后,使用长短期记忆(LSTM)神经网络将标签进行单独编码;最后,利...  相似文献   

9.
张小川  戴旭尧  刘璐  冯天硕 《计算机应用》2005,40(12):3485-3489
针对中文短文本缺乏上下文信息导致的语义模糊从而存在的特征稀疏问题,提出了一种融合卷积神经网络和多头自注意力机制(CNN-MHA)的文本分类模型。首先,借助现有的基于Transformer的双向编码器表示(BERT)预训练语言模型以字符级向量形式来格式化表示句子层面的短文本;然后,为降低噪声,采用多头自注意力机制(MHA)学习文本序列内部的词依赖关系并生成带有全局语义信息的隐藏层向量,再将隐藏层向量输入到卷积神经网络(CNN)中,从而生成文本分类特征向量;最后,为提升分类的优化效果,将卷积层的输出与BERT模型提取的句特征进行特征融合后输入到分类器里进行再分类。将CNN-MHA模型分别与TextCNN、BERT、TextRCNN模型进行对比,实验结果表明,改进模型在搜狐新闻数据集上的F1值表现和对比模型相比分别提高了3.99%、0.76%和2.89%,验证了改进模型的有效性。  相似文献   

10.
目前大部分多标签文本分类算法忽视文本序列中不同词的重要程度、不同层次文本特征的影响,提出一种ATT-Capsule-BiLSTM模型,使用多头注意力机制(Multi-head Attention),结合胶囊网络(CapsuleNet)与双向长短期记忆网络(BiLSTM)方法。将文本序列向量化表示,在词向量的基础上通过多头注意力机制学习单词的权重分布。通过胶囊网络和BiLSTM分别提取局部空间信息和上下文时序信息的特征表示,通过平均融合后,由sigmoid分类器进行分类。在Reuters-21578和AAPD两个数据集上进行对比实验,实验结果表明,提出的联合模型在使用简单架构的情况下,达到了较好的性能,[F1]值分别达到了89.82%和67.48%。  相似文献   

11.
金融文本多标签分类算法可以根据用户需求在海量金融资讯中实现信息检索。为进一步提升金融文本标签识别能力,建模金融文本多标签分类中标签之间的相关性,提出基于图深度学习的金融文本多标签分类算法。图深度学习通过深度网络学习局部和全局的图结构特征,可以刻画节点之间的复杂关系。通过建模标签关联实现标签之间的知识迁移,是构造具有强泛化能力算法的关键。所提算法结合标签之间的关联信息,采用基于双向门控循环网络和标签注意力机制得到的新闻文本对应不同标签的特征表示,通过图神经网络学习标签之间的复杂依赖关系。在真实数据集上的实验结果表明,显式建模标签之间的相关性能够极大地增强模型的泛化能力,在尾部标签上的性能提升尤其显著,相比CAML、BIGRU-LWAN和ZACNN算法,该算法在所有标签和尾部标签的宏观F1值上最高提升3.1%和6.9%。  相似文献   

12.
gMLC: a multi-label feature selection framework for graph classification   总被引:1,自引:1,他引:0  
Graph classification has been showing critical importance in a wide variety of applications, e.g. drug activity predictions and toxicology analysis. Current research on graph classification focuses on single-label settings. However, in many applications, each graph data can be assigned with a set of multiple labels simultaneously. Extracting good features using multiple labels of the graphs becomes an important step before graph classification. In this paper, we study the problem of multi-label feature selection for graph classification and propose a novel solution, called gMLC, to efficiently search for optimal subgraph features for graph objects with multiple labels. Different from existing feature selection methods in vector spaces that assume the feature set is given, we perform multi-label feature selection for graph data in a progressive way together with the subgraph feature mining process. We derive an evaluation criterion to estimate the dependence between subgraph features and multiple labels of graphs. Then, a branch-and-bound algorithm is proposed to efficiently search for optimal subgraph features by judiciously pruning the subgraph search space using multiple labels. Empirical studies demonstrate that our feature selection approach can effectively boost multi-label graph classification performances and is more efficient by pruning the subgraph search space using multiple labels.  相似文献   

13.
基于深度学习的多标签文本分类方法存在两个主要缺陷:缺乏对文本信息多粒度的学习,以及对标签间约束性关系的利用.针对这些问题,提出一种多粒度信息关系增强的多标签文本分类方法.首先,通过联合嵌入的方式将文本与标签嵌入到同一空间,并利用BERT预训练模型获得文本和标签的隐向量特征表示.然后,构建3个多粒度信息关系增强模块:文档级信息浅层标签注意力分类模块、词级信息深层标签注意力分类模块和标签约束性关系匹配辅助模块.其中,前两个模块针对共享特征表示进行多粒度学习:文档级文本信息与标签信息浅层交互学习,以及词级文本信息与标签信息深层交互学习.辅助模块通过学习标签间关系来提升分类性能.最后,所提方法在3个代表性数据集上,与当前主流的多标签文本分类算法进行了比较.结果表明,在主要指标Micro-F1、MacroF1、nDCG@k、P@k上均达到了最佳效果.  相似文献   

14.
司法文书短文本的语义多样性和特征稀疏性等特点,对短文本多标签分类精度提出了很大的挑战,传统单一模型的分类算法已无法满足业务需求。为此,提出一种融合深度学习与堆叠模型的多标签分类方法。该方法将分类器划分成两个层次,第一层使用BERT、卷积神经网络、门限循环单元等深度学习方法作为基础分类器,每个基础分类器模型通过K折交叉验证得到所有数据的多标签分类概率值,将此概率值数据进行融合形成元数据;第二层使用自定义的深度神经网络作为混合器,以第一层的元数据为输入,通过训练多标签概率矩阵获取模型参数。该方法将强分类器关联在一起,获得比单个分类器更加强大的性能。实验结果表明,深度学习堆叠模型实现了87%左右的短文本分类F1分数,优于BERT、卷积神经网络、循环神经网络及其他单个模型的性能。  相似文献   

15.
现有的类属属性学习方法在提取类别标签的特征时,大多仅单一考虑标签间的相关性,忽略实例和实例间以及特征与特征间的相关性,可能会降低分类精度.为了解决此问题,文中设计多类别相关性结合的类属属性多标签学习算法,考虑标签相关性、特征相关性和实例相关性.利用标签之间的余弦相似度计算标签相关性,构建相似图矩阵计算特征相关性和实例相关性.文中算法紧凑地选择标签的类属属性,提高分类精度,有效解决多标签分类遇到的维度过大问题.  相似文献   

16.
针对传统的胸部辅助诊断系统在胸部X光片疾病分类方面图像特征提取效果差、平均准确率低等问题,提出了一个注意力机制和标签相关性结合的多层次分类网络.网络的训练分为两个阶段,在阶段1为了提高网络特征提取能力,引入注意力机制并构建一个双分支特征提取网络,实现综合特征的提取,在阶段2考虑到多标签分类中标签之间相关性等问题,利用图卷积神经网络对标签相关关系进行建模,并与阶段1的特征提取结果进行结合,以实现对胸部X光片疾病的多标签分类任务.实验结果表明,本方法在ChestX-ray14数据集上各类疾病的加权平均AUC达到0.827,有助于辅助医生进行胸部疾病的诊断,有一定的临床应用价值.  相似文献   

17.
多标签学习广泛应用于文本分类、标签推荐、主题标注等.最近,基于深度学习技术的多标签学习受到广泛关注,针对如何在多标签学习中有效挖掘并利用高阶标签关系的问题,提出一种基于图卷积网络探究标签高阶关系的模型TMLLGCN.该模型采用GCN的映射函数从数据驱动的标签表示中生成对象分类器挖掘标签高阶关系.首先,采用深度学习方法提取文本特征,然后以数据驱动方式获得基础标签关联表示矩阵,为更好地建模高阶关系及提高模型效果,在基础标签关联表示矩阵上考虑未标记标签集对已知标签集的影响进行标签补全,并以此相关性矩阵指导GCN中标签节点之间的信息传播,最后将提取的文本特征应用到学习高阶标签关系的图卷积网络分类器进行端到端训练,综合标签关联和特征信息作为最终的预测结果.在实际多标签数据集上的实验结果表明,提出的模型能够有效建模标签高阶关系且提升了多标签学习的效果.  相似文献   

18.
多标签图像分类是多标签数据分类问题中的研究热点.针对目前多标签图像分类方法只学习图像的视觉表示特征,忽略了图像标签之间的相关信息以及标签语义与图像特征的对应关系等问题,提出了一种基于多头图注意力网络与图模型的多标签图像分类模型(ML-M-GAT).该模型利用标签共现关系与标签属性信息构建图模型,使用多头注意力机制学习标签的注意力权重,并利用标签权重将标签语义特征与图像特征进行融合,从而将标签相关性与标签语义信息融入到多标签图像分类模型中.为验证本文所提模型的有效性,在公开数据集VOC-2007和COCO-2014上进行实验,实验结果表明, ML-M-GAT模型在两个数据集上的平均均值精度(mAP)分别为94%和82.2%,均优于CNN-RNN、ResNet101、MLIR、MIC-FLC模型,比ResNet101模型分别提高了4.2%和3.9%.因此,本文所提的ML-M-GAT模型能够利用图像标签信息提高多标签图像分类性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号