首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
林呈宇  王雷  薛聪 《计算机应用》2023,43(2):335-342
针对弱监督文本分类任务中存在的类别词表噪声和标签噪声问题,提出了一种标签语义增强的弱监督文本分类模型。首先,基于单词上下文语义表示对类别词表去噪,从而构建高度准确的类别词表;然后,构建基于MASK机制的词类别预测任务对预训练模型BERT进行微调,以学习单词与类别的关系;最后,利用引入标签语义的自训练模块来充分利用所有数据信息并减少标签噪声的影响,以实现词级到句子级语义的转换,从而准确预测文本序列类别。实验结果表明,与目前最先进的弱监督文本分类模型LOTClass相比,所提方法在THUCNews、AG News和IMDB公开数据集上,分类准确率分别提高了5.29、1.41和1.86个百分点。  相似文献   

2.
由于遥感图像包含物体类别多样,单个语义类别标签无法全面地描述图像内容,而多标签图像分类任务更加具有挑战性.通过探索深度图卷积网络(GCN),解决了多标签遥感图像分类缺乏对标签语义信息相关性利用的问题,提出了一种新的基于图卷积的多标签遥感图像分类网络,它包含图像特征学习模块、基于图卷积网络的分类器学习模块和图像特征差异化模块三个部分.在公开多标签遥感数据集Planet和UCM上与相关模型进行对比,在多标签遥感图像分类任务上可以得到了较好的分类结果.该方法使用图卷积等模块将多标签图像分类方法应用到遥感领域,提高了模型分类能力,缩短了模型训练时间.  相似文献   

3.
在图像分类的实际应用过程中,部分类别可能完全没有带标签的训练数据。零样本学习(ZSL)的目的是将带标签类别的图像特征等知识迁移到无标签的类别上,实现无标签类别的正确分类。现有方法在测试时无法显式地区分输入图像属于已知类还是未知类,很大程度上导致未知类在传统设定下的ZSL和广义设定下的ZSL(GZSL)上的预测效果相差甚远。为此,提出一种融合视觉误差与属性语义信息的方法来缓解零样本图像分类中的预测偏置问题。首先,设计一种半监督学习方式的生成对抗网络架构来获取视觉误差信息,由此预测图像是否属于已知类;然后,提出融合属性语义信息的零样本图像分类网络来实现零样本图像分类;最后,测试融合视觉误差与属性语义的零样本图像分类方法在数据集AwA2和CUB上的效果。实验结果表明,与对比模型相比,所提方法有效缓解了预测偏置问题,其调和指标H在AwA2(Animal with Attributes)上提升了31.7个百分点,在CUB(Caltech-UCSD-Birds-200-2011)上提升了8.7个百分点。  相似文献   

4.
任炜  白鹤翔 《计算机应用》2022,42(5):1383-1390
针对多标签图像分类任务中存在的难以对标签间的相互作用建模和全局标签关系固化的问题,结合自注意力机制和知识蒸馏(KD)方法,提出了一种基于全局与局部标签关系的多标签图像分类方法(ML-GLLR)。首先,局部标签关系(LLR)模型使用卷积神经网络(CNN)、语义模块和双层自注意力(DLSA)模块对局部标签关系建模;然后,利用KD方法使LLR学习全局标签关系。在公开数据集MSCOCO2014和VOC2007上进行实验,LLR相较于基于图卷积神经网络多标签图像分类(ML-GCN)方法,在平均精度均值(mAP)上分别提高了0.8个百分点和0.6个百分点,ML-GLLR相较于LLR在mAP上分别进一步提高了0.2个百分点和1.3个百分点。实验结果表明,所提ML-GLLR不仅能对标签间的相互关系进行建模,也能避免全局标签关系固化的问题。  相似文献   

5.
基于浮动阈值分类器组合的多标签分类算法   总被引:1,自引:0,他引:1  
针对目标可以同时属于多个类别的多标签分类问题,提出了一种基于浮动阈值分类器组合的多标签分类算法.首先,分析探讨了基于浮动阈值分类器的AdaBoost算法(AdaBoost.FT)的原理及错误率估计,证明了该算法能克服固定分段阈值分类器对分类边界附近点分类不稳定的缺点从而提高分类准确率;然后,采用二分类(BR)方法将该单标签学习算法应用于多标签分类问题,得到基于浮动阈值分类器组合的多标签分类方法,即多标签AdaBoost.FT.实验结果表明,所提算法的平均分类精度在Emotions数据集上比AdaBoost.MH、ML-kNN、RankSVM这3种算法分别提高约4%、8%、11%;在Scene、Yeast数据集上仅比RankSVM低约3%、1%.由实验分析可知,在不同类别标记之间基本没有关联关系或标签数目较少的数据集上,该算法均能得到较好的分类效果.  相似文献   

6.
针对遥感影像多标签分类中类别标签频次存在长尾分布,导致深度学习网络无法充分学习尾部类别特征的问题,提出了一种双分支遥感影像多标签重平衡权重分类方法.首先,通过利用数据集标签频次的统计特性,重新对二进制交叉熵(BCE)损失函数中各个类别的权重进行设计,从而达到在卷积神经网络训练过程中重视尾部类别的目的.然后,使用一个双分支结构对修改后的模型和原模型进行集成,两个分支分别关注头部类和尾部类,提高整体的识别效果.最后,为了更好地验证算法的有效性,构建了一个目前最大规模的基于实例的遥感影像多标签分类数据集ML-iSAID.实验结果表明,双分支重平衡权重训练方法与仅使用BCE损失函数的方法(基准方法)相比在ML-UCMerced、ML-AID、ML-iSAID三个数据集中在基于类别的F1指标上分别提升了1.28个、5.40个、3.26个百分点.所提方法能够可以有效缓解长尾效应带来的归纳偏置.  相似文献   

7.
针对标题文本特征少、特征维度高和分布不均匀导致分类性能不佳的问题,该文提出了一种利用分类体系结构信息的双向特征选择算法,并在该方法基础上实现标题分类。该方法以具有严格层级关系的分类体系为应用前提,利用类别与词的同现和分布关系进行特征词和候选类别的双向选择,构建类别向量空间;通过分析标题文本特征词在层级类别向量空间的分布所表现出的类别语义信息,确定文本所在层级以及所在层级的候选类别;之后利用分类器对未能成功分类的标题进行分类。在人工标引数据集上的实验结果表明,该方法在不进行语料扩展和外部知识库添加的基础上仍可有效地确定文本所在层级,实现多级学科的分类;并可在识别类别语义信息的基础上,降低候选类别数目,提高分类效率。  相似文献   

8.
尹玉  詹永照  姜震 《计算机应用》2019,39(8):2204-2209
在视频语义检测中,有标记样本不足会严重影响检测的性能,而且伪标签样本中的噪声也会导致集成学习基分类器性能提升不足。为此,提出一种伪标签置信选择的半监督集成学习算法。首先,在三个不同的特征空间上训练出三个基分类器,得到基分类器的标签矢量;然后,引入加权融合样本所属某个类别的最大概率与次大概率的误差和样本所属某个类别的最大概率与样本所属其他各类别的平均概率的误差,作为基分类器的标签置信度,并融合标签矢量和标签置信度得到样本的伪标签和集成置信度;接着,选择集成置信度高的样本加入到有标签的样本集,迭代训练基分类器;最后,采用训练好的基分类器集成协作检测视频语义概念。该算法在实验数据集UCF11上的平均准确率到达了83.48%,与Co-KNN-SVM算法相比,平均准确率提高了3.48个百分点。该算法选择的伪标签能体现样本所属类别与其他类别的总体差异性,又能体现所属类别的唯一性,可减少利用伪标签样本的风险,有效提高视频语义概念检测的准确率。  相似文献   

9.
在数据集不包含标签文本信息时,现有的显式交互分类模型无法显式计算文本单词和标签之间的语义关系.针对此问题,文中提出标签指导的双注意力深度神经网络模型.首先,提出基于逆标签频次的自动类别标签描述生成方法,为每个标签生成特定的标签描述,用于显式计算文本单词与标签之间的语义关系.在此基础上,使用文本编码器学习具有上下文语境信息的评论文本表示,并提出标签指导的双注意力网络,分别学习基于自注意力的文本表示和基于标签注意力的文本表示.然后,使用自适应门控机制融合这两个文本表示,得到文本最终表示.最后,使用两层前馈神经网络作为分类器,进行情感分类.在3个公开的真实数据集上的实验表明,文中模型分类效果较优,可减少计算代价和训练时长.  相似文献   

10.
短文本语义稀疏模糊、蕴含信息不足、表达不规则等缺陷给短文本分类任务带来了极大的挑战,且现有短文本分类方法通常忽略词项间的交互信息,不能充分挖掘隐含的语义信息,导致分类效率低下。针对上述问题,提出一种基于多粒度图与注意力机制的半监督短文本分类模型MgGAt。该模型在词粒度和文本粒度基础上构建2种类型的图,通过充分挖掘语义信息完成分类任务。首先构建词级图,捕获词嵌入,进而学习得到文本特征表示。在词级图上引入跳内注意力和跳间注意力,从多种语义角度有效提取词项间隐含的高阶信息,捕获语义丰富的词嵌入。同时依据词级子图的特点设计池化策略,聚合词嵌入,学习文本表征。其次构建文本级图,借助部分已知的标签信息,利用图神经网络的优势,在图上执行标签传播和推理,完成半监督短文本分类任务。在4个公开数据集上的实验结果表明,与基线模型相比,MgGAt模型的短文本分类精确率平均提升了1.18个百分点,F1值平均提升了1.37个百分点,具有更好的分类性能。  相似文献   

11.
李琳  段围  周栋  袁景凌 《软件学报》2022,33(7):2618-2632
法律条文(简称法条)是司法量刑的主要依据,法律条文的精准推荐,能够辅助提高法律智能判决的质量.目前,主流的法条推荐模型是将有限数量的法条当作类别标签,采用分类的思想,根据法律文书的案例描述将其归类到相关的法条.但是法条作为法律规范的文字表述形式,现有的分类方法简单将其作为类别标签的索引编号,导致对其语义信息利用不足,影响了推荐质量.针对此问题,研究将主流的法条推荐方法从分类模型转化为语义匹配模型,提出了基于深度语义匹配的法条推荐方法(DeepLawRec).该方法包含局部语义匹配模块和全局语义推荐模块,分别设计双向Transformer卷积网络模型和基于回归树的推荐模型,在理解文本序列的同时,关注与法条匹配学习相关的局部语义特征,增强法条推荐的准确率和可解释性.在公开数据集上的实验结果表明,DeepLawRec方法在推荐质量上优于传统的文本分类以及经典的语义匹配方法,并进一步探讨了如何分析和判读推荐结果.  相似文献   

12.
江静  陈渝  孙界平  琚生根 《计算机应用》2022,42(6):1789-1795
用于文本表示的预训练语言模型在各种文本分类任务上实现了较高的准确率,但仍然存在以下问题:一方面,预训练语言模型在计算出所有类别的后验概率后选择后验概率最大的类别作为其最终分类结果,然而在很多场景下,后验概率的质量能比分类结果提供更多的可靠信息;另一方面,预训练语言模型的分类器在为语义相似的文本分配不同标签时会出现性能下降的情况。针对上述两个问题,提出一种后验概率校准结合负例监督的模型PosCal-negative。该模型端到端地在训练过程中动态地对预测概率和经验后验概率之间的差异进行惩罚,并在训练过程中利用带有不同标签的文本来实现对编码器的负例监督,从而为每个类别生成不同的特征向量表示。实验结果表明:PosCal-negative模型在两个中文母婴护理文本分类数据集MATINF-C-AGE和MATINF-C-TOPIC的分类准确率分别达到了91.55%和69.19%,相比ERNIE模型分别提高了1.13个百分点和2.53个百分点。  相似文献   

13.
零样本多标签图像分类是对含多个标签且测试类别标签在训练过程中没有相应训练样本的图像进行分类标注。已有的研究表明,多标签图像类别间存在相互关联,合理利用标签间相互关系是多标签图像分类技术的关键,如何实现已见类到未见类的模型迁移,并利用标签间相关性实现未见类的分类是零样本多标签分类需要解决的关键问题。针对这一挑战性的学习任务,提出一种深度示例差异化分类算法。首先利用深度嵌入网络实现图像视觉特征空间至标签语义特征空间的跨模态映射,然后在语义空间利用示例差异化算法实现多标签分类。通过在主流数据集Natural Scene和IAPRTC-12上与已有算法进行对比实验,验证了所提方法的先进性和有效性,同时验证了嵌入网络的先进性。  相似文献   

14.
针对传统的短文本分类方法大量使用语法标签和词库导致产生语言依赖的问题,提出一种基于语言无关性语义核学习的短文本分类方法。首先,利用短文本的语义信息从文档中提取模式;然后,以三个标注层(词、文档和类别)标注提取出的每个模式;最后,根据三个标注层次计算文档之间的相似度,并根据相似度完成分类。在英语和汉语数据集上的实验验证了该方法的有效性。实验结果表明,相比其他几种核方法,该方法取得了更好的分类性能。  相似文献   

15.
针对图像自动标注中底层视觉特征与高层语义之间的语义鸿沟问题,在传统字典学习的基础上,提出一种基于多标签判别字典学习的图像自动标注方法。首先,为每幅图像提取多种类型特征,将多种特征组合作为字典学习输入特征空间的输入信息;然后,设计一个标签一致性正则化项,将原始样本的标签信息融入到初始的输入特征数据中,结合标签一致性判别字典和标签一致性正则化项进行字典学习;最后,通过得到的字典和稀疏编码矩阵求解标签稀疏编向量,实现未知图像的语义标注。在Corel 5K数据集上测试其标注性能,所提标注方法平均查准率和平均查全率分别可达到35%和48%;与传统的稀疏编码方法(MSC)相比,分别提高了10个百分点和16个百分点;与距离约束稀疏/组稀疏编码方法(DCSC/DCGSC)相比,分别提高了3个百分点和14个百分点。实验结果表明,所提方法能够较好地预测未知图像的语义信息,与当前几种流行的图像标注方法进行比较,所提方法具有较好的标注性能。  相似文献   

16.
目的 哈希是大规模图像检索的有效方法。为提高检索精度,哈希码应保留语义信息。图像之间越相似,其哈希码也应越接近。现有方法首先提取描述图像整体的特征,然后生成哈希码。这种方法不能精确地描述图像包含的多个目标,限制了多标签图像检索的精度。为此提出一种基于卷积神经网络和目标提取的哈希生成方法。方法 首先提取图像中可能包含目标的一系列区域,然后用深度卷积神经网络提取每个区域的特征并进行融合,通过生成一组特征来刻画图像中的每个目标,最后再产生整幅图像的哈希码。采用Triplet Loss的训练方法,使得哈希码尽可能保留语义信息。结果 在VOC2012、Flickr25K和NUSWIDE数据集上进行多标签图像检索。在NDCG(normalized discounted cumulative gain)性能指标上,当返回图像数量为 1 000时,对于VOC2012,本文方法相对于DSRH(deep semantic ranking hashing)方法提高24个百分点,相对于ITQ-CCA(iterative quantization-canonical correlation analysis)方法能提高36个百分点;对于Flickr25,本文方法比DSRH方法能提高2个左右的百分点;对于NUSWIDE,本文方法相对于DSRH方法能提高4个左右的百分点。对于平均检索准确度,本文方法在NUSWIDE和Flickr25上能提高25个百分点。根据多项评价指标可以看出,本文方法能以更细粒度来精确地描述图像,显著提高了多标签图像检索的性能。结论 本文新的特征学习模型,对图像进行细粒度特征编码是一种可行的方法,能够有效提高数据集的检索性能。  相似文献   

17.
冀中  孙涛  于云龙 《软件学报》2017,28(11):2961-2970
零样本分类的目标是对训练阶段未出现过的类别的样本进行识别和分类,其主要思路是,借助类别语义信息,将可见类别的知识转移到未见类别中.提出了一种直推式的字典学习方法,包含以下两个步骤:首先,提出一个判别字典学习模型,对带标签的可见类别样本的视觉特征和类别语义特征建立映射关系模型;然后,针对可见类别和未见类别不同引起的域偏移问题,提出了一个基于直推学习的修正模型.通过在3个基准数据集(AwA,CUB和SUN)上的实验结果,证明了该方法的有效性和先进性.  相似文献   

18.
多标签图像分类是多标签数据分类问题中的研究热点.针对目前多标签图像分类方法只学习图像的视觉表示特征,忽略了图像标签之间的相关信息以及标签语义与图像特征的对应关系等问题,提出了一种基于多头图注意力网络与图模型的多标签图像分类模型(ML-M-GAT).该模型利用标签共现关系与标签属性信息构建图模型,使用多头注意力机制学习标签的注意力权重,并利用标签权重将标签语义特征与图像特征进行融合,从而将标签相关性与标签语义信息融入到多标签图像分类模型中.为验证本文所提模型的有效性,在公开数据集VOC-2007和COCO-2014上进行实验,实验结果表明, ML-M-GAT模型在两个数据集上的平均均值精度(mAP)分别为94%和82.2%,均优于CNN-RNN、ResNet101、MLIR、MIC-FLC模型,比ResNet101模型分别提高了4.2%和3.9%.因此,本文所提的ML-M-GAT模型能够利用图像标签信息提高多标签图像分类性能.  相似文献   

19.
该文研究中文新闻标题的领域分类方法(domain-oriented headline classification,DHC)。现有研究将DHC限定为一种短文本分类问题,并将传统分类模型和基于卷积神经网络的分类模型应用于这一问题的求解。然而,这类方法忽视了新闻标题的内在特点,即为“标题是建立在凝练全文且弱相关的词语之上的一种强迫性的语义表述”。目前,融合了序列化记忆的循环神经网络在语义理解方面取得了重要成果。借助这一特点,该文将长短时记忆网络模型(long-short term memory,LSTM)及其变型——门控循环单元(gated recurrent unit,GRU)也应用于标题的语义理解与领域分类,实验验证其性能可达81%的F1值。此外,该文对目前前沿的神经网络分类模型进行综合分析,尝试寻找各类模型在DHC任务上共有的优势和劣势。通过对比“全类型多元分类”与“单类型二元分类”,发现在领域性特征较弱和领域歧义性较强的样本上,现有方法难以取得更为理想的结果(F1值<81%)。借助上述分析,该文旨在推动DHC研究在标题语言特性上投入更为充分的关注。  相似文献   

20.
互联网主题分析中经常采用概率主题模型对主题进行描述,但存在对于一般用户难以理解的问题,提出一种概率主题模型的自动语义标注方法.首先通过基于语义分类的关联规则挖掘关联主题词并建立候选标签集合,然后以关联词在数据集中的概率分布来设计相关性判别函数,计算候选标签和主题模型的相关度,最后根据最大边缘相关选择高语义覆盖度和区分度的标签.在食品安全和旅游领域主题模型标注的实验表明,与最大概率主题词标记方法相比,提出的方法能够明显提高标注的准确性,并且解决了多标签标记中语义类别单一的问题,能够以较少数量的标签表达更为丰富的语义,这有助于进一步实现更为准确的主题跟踪和主题信息检索.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号