首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
文本情感分类是自然语言处理领域的挑战性研究课题.基于词典的方法和传统基于机器学习方法分别依赖高质量的情感词典和鲁棒的特征工程,而多数深度学习方法的性能则依赖大规模人工标注数据集.幸运的是,不同社交平台用户生成了大量带标签的舆情文本,这些文本可以作为弱标注数据集被用于情感分类任务,但是弱标注数据集中的噪声样本会对训练过程产生负面影响.提出了一种用于小样本情感分类任务的弱监督对比学习(weakly-supervised contrastive learning, WCL)框架,旨在学习海量带噪声的用户标记数据中的情感语义,同时挖掘少量人工标注数据中潜在的类间对比模式.该框架包括2个步骤:首先,设计了一种弱监督预训练策略来削弱噪声数据的影响;其次,在有监督微调阶段引入对比学习策略来捕获少量有标注数据的对比模式.在亚马逊评论数据集上评估了所提出的方法,实验结果表明所提出的方法显著优于其他同类对比方法.在仅使用0.5%(即32个样本)比例的有标注数据集进行微调的情况下,所提出方法的性能依然超出其他深度方法.  相似文献   

2.
标记分布学习(label distribution learning,LDL)是一种用于解决标记多义性的新颖学习范式。现有的LDL方法大多基于完整数据信息进行设计,然而由于高昂的标注成本以及标注人员水平的局限性,很难获取到完整标注数据信息,且会导致传统LDL算法性能的下降。为此,本文提出了一种新型的结合局部序标记关系的弱监督标记分布学习算法,通过维持尚未缺失标记之间的相对关系,并利用标记相关性来恢复缺失的标记,在数据标注不完整的情况下提升算法性能。在14个数据集上进行了大量的实验来验证算法的有效性。  相似文献   

3.
围绕基于用户点击数据的文本聚类展开研究。利用点击数据将查询文本表征为图像点击特征图,并在此上训练深度点击模型。为了应对文本噪声,引入可刻画文本可靠性的权重,提出基于弱监督深度学习的文本聚类算法来迭代更新文本权重和深度模型。将该算法应用于基于点击特征的图像识别中,通过合并相似文本,为图像构建紧凑的文本集点击特征向量,实现高效的图像识别。在Clickture-Dog和Clickture-Bird两个公开点击数据集上进行验证,结果表明:用图像点击特征图来表征查询文本可有效解决原始点击特征向量的稀疏和不连续性,帮助获得优秀识别率;弱监督深度聚类模型不仅帮助学习强大的文本表征,还能有效选择高质量文本数据训练模型,进一步提高性能。  相似文献   

4.
基于图的半监督学习的一个关键问题是:图上顶点之间的距离度量的有效性问题。为了解决这个问题,提出了基于图的半监督学习的距离度量改进方法。通过在现有密度敏感的距离度量方案中添加补偿参数的方法,使得改进的距离度量方案不但能够有效地扩大不同类别的高密度区域样本间的距离,同时还能缩小相同类别中样本之间的距离。将改进的距离度量方案应用到聚类算法中,来验证改进的距离度量方案的有效性。实验结果表明:改进的距离度量方法能够有效地扩大不同类别间距离,增强类内聚合度。  相似文献   

5.
借鉴聚类思想和万有引力计算方法,提出了解决基于示例学习中两个关键问题的新思路,这两个新思路分别是,利用示例邻近同类其它示例数目来描述该示例潜在预测能力,以及利用实例质量来帮助更加准确地预测新实例类别。据此构造了一种聚类型基于示例学习的新方法,并利用标准机器学习数据库中3个复杂数据样本,对所提方法的性能进行实验检测,有关的对比实验结果表明,所提方法在实例预测能力以及学习结果占用空间有效性方面,均优越其它多种基于示范学习方法。  相似文献   

6.
随着卷积神经网络(Convolutional Neural Network,CNN)的不断发展,目标检测作为计算机视觉中最基本的技术,已取得了令人瞩目的进展。介绍了强监督目标检测算法对数据集标注精度要求高的现状。对基于弱监督学习的目标检测算法进行研究,按照不同的特征处理方法将该算法归为四类,并分析比较了各类算法的优缺点。通过实验比较了各类基于弱监督学习的目标检测算法的检测精度,并将其与主流的强监督目标检测算法进行了比较。展望了基于弱监督学习的目标检测算法未来的研究热点。  相似文献   

7.
8.
近年来各类人体行为识别算法利用大量标记数据进行训练,取得了良好的识别精度。但在实际应用中,数据的获取以及标注过程都是非常耗时耗力的,这限制了算法的实际落地。针对弱监督及少样本场景下的视频行为识别深度学习方法进行综述。首先,在弱监督情况下,分类总结了半监督行为识别方法和无监督领域自适应下的视频行为识别方法;然后,对少样本场景下的视频行为识别算法进行详细综述;接着,总结了当前相关的人体行为识别数据集,并在该数据集上对各相关视频行为识别算法性能进行分析比较;最后,进行概括总结,并展望人体行为识别的未来发展方向。  相似文献   

9.
为了降低语义分割任务的标注成本,提出一种基于自监督图像对的弱监督语义分割算法Co-Net。首先,将一对图像分别输入骨干网络中提取图像对特征;然后,将特征展开加入位置信息送入编码层中进行编码;接着,将编码特征送入协同注意力模块(CoAM)以及双向自注意力模块(BiAM)中进行信息相互表征;最后,将图像区域掩码模型(MRM)以及图像对匹配(IPM)两种自监督任务用于网络训练,学习图像对中的全局关联以及局部关联,以此得到更加精确的初始化种子。仅使用图像级标签进行弱监督语义分割,在Pascal VOC 2012验证和测试集上分别实现了69.8%和70.3%的平均交并比(mIoU),相较于同样为图像对输入的算法GroupWSSS(Group-Wise Semantic mining for weakly Supervised Semantic Segmentation),验证集、测试集上的mIoU分别提高了1.6、1.8个百分点。实验结果表明,所提算法可以获得更加完整的目标激活区域。  相似文献   

10.
针对实际应用中大量数据集缺乏精细位置标注的问题,提出了一种基于渐进对抗学习的弱监督目标定位算法.具体来说,针对数据集噪声造成训练困难的问题,引入自步学习对训练数据按由简到难的原则进行排序.在网络设计上,将弱监督目标定位网络设计为多标签分类网络,并提出了相应的对抗损失函数适应目标定位任务.为了解决现有方法往往只关注最具辨...  相似文献   

11.
针对已有分类器在结构形式和训练方法的不足,构建了一个以二维深度置信网络(2D deep belief networks,2D DBN)为架构的弱监督分层深度学习车辆识别算法。首先,将传统一维的深度置信网络(Deep belief networks,DBN)扩展成2D-DBN,并构建相应分类器结构,从而能够直接以二维图像像素矩阵作为输入; 其次,在传统无监督训练的目标函数中,引入了一个具有适当权重的判别度正则化项,将原有无监督训练转化为带有较弱监督性的弱监督训练方式,从而使提取的特征较传统无监督特征更具判别性。多组对比实验表明,本文所提算法在识别率等指标上要优于已有深度学习算法。  相似文献   

12.
三维人脸相较于二维人脸包含了更多特征信息,可应用于如人脸识别、影视娱乐、医疗美容等更多实际应用场景,因此三维人脸重建技术一直是计算机视觉领域的研究热点.由于真实三维人脸数据较难获取,很多基于深度学习的重建算法首先利用传统重建方法为大量二维人脸图像构建三维标签,作为训练数据,这些数据可能并不精准,从而导致算法的重建精度受到影响.为此,本文提出一种基于multi-level损失函数的弱监督学习模型,结合传统三维人脸形变模型3DMM与深度学习方法,直接从大量无三维标签的二维人脸图像中学习三维人脸特征信息,从而实现基于单张二维人脸图像的三维人脸重建算法.此外,为解决二维人脸图像中常存在遮挡或大姿态情况而影响人脸纹理重建的问题,本文使用基于CelebAMask-HQ数据集的人脸解析分割算法对图像进行预处理去除遮挡区域.实验结果表明,基于本文方法的三维人脸重建质量与重建精度均实现了一定的提升.  相似文献   

13.
深度卷积神经网络(Deep convolutional neural network, DCNN)在目标检测任务上使用目标的全标注来训练网络参数, 其检测准确率也得到了大幅度的提升. 然而, 获取目标的边界框(Bounding-box)标注是一项耗时且代价高的工作. 此外, 目标检测的实时性是制约其实用性的另一个重要问题. 为了克服这两个问题, 本文提出一种基于图像级标注的弱监督实时目标检测方法. 该方法分为三个子模块: 1)首先应用分类网络和反向传递过程生成类别显著图, 该显著图提供了目标在图像中的位置信息; 2)根据类别显著图生成目标的伪标注(Pseudo-bounding-box); 3)最后将伪标注看作真实标注并优化实时目标检测网络的参数. 不同于其他弱监督目标检测方法, 本文方法无需目标候选集合获取过程, 并且对于测试图像仅通过网络的前向传递过程就可以获取检测结果, 因此极大地加快了检测的速率(实时性). 此外, 该方法简单易用; 针对未知类别的目标检测, 只需要训练目标类别的分类网络和检测网络. 因此本框架具有较强的泛化能力, 为解决弱监督实时检测问题提供了新的研究思路. 在PASCAL VOC 2007数据集上的实验表明: 1)本文方法在检测的准确率上取得了较好的提升; 2)实现了弱监督条件下的实时检测.  相似文献   

14.
多标签学习是一种非常重要的机器学习范式.传统的多标签学习方法是在监督或半监督的情况下设计的.通常情况下,它们需要对所有或部分数据进行准确的属于多个类别的标注.在许多实际应用中,拥有大量标注的标签信息往往难以获取,限制了多标签学习的推广和应用.与之相比,标签相关性作为一种常见的弱监督信息,它对标注信息的要求较低.如何利用标签相关性进行多标签学习,是一个重要但未研究的问题.提出了一种利用标签相关性作为先验的弱监督多标签学习方法(WSMLLC).该模型利用标签相关性对样本相似性进行了重述,能够有效地获取标签指示矩阵;同时,利用先验信息对数据的投影矩阵进行约束,并引入回归项对指示矩阵进行修正.与现有方法相比,WSMLLC模型的突出优势在于:仅提供标签相关性先验,就可以实现多标签样本的标签指派任务.在多个公开数据集上进行实验验证,实验结果表明:在标签矩阵完全缺失的情况下,WSMLLC与当前先进的多标签学习方法相比具有明显优势.  相似文献   

15.
基于弱监督学习的海量网络数据关系抽取   总被引:1,自引:0,他引:1  
在大数据时代,对于海量网络数据的信息抽取与应用已成为自然语言处理和信息检索技术发展的重要主题.其中,基于弱监督的关系抽取方法,因为具有不需要过多人工参与、适应性强的特点,受到了广泛的关注.目前针对它的研究主要集中在英语资源上,主要使用传统的词法和句法特征.然而,词法特征有严重的稀疏性问题,句法特征则对一些语言分析工具的性能有较强的依赖性.提出利用n-gram 特征来缓解传统词法特征稀疏性的问题.特别地,这种特征还可以弥补传统句法特征在其他语言上不可靠的情况,对于关系抽取的跨语言应用有重要作用.在此基础上,针对弱监督学习中标注数据不完全可靠的情况,提出基于bootstrapping思想的协同训练方法来对弱监督关系抽取模型进行强化,并且对预测关系时的协同策略进行了详细分析.在大规模的中文和英文数据上进行实验的结果显示,把传统特征与n-gram特征相结合并进行协同训练,在中文和英文数据集上均可以提升弱监督关系抽取的效果,可以适应多语言的关系抽取需求.  相似文献   

16.
针对细粒度图像分类任务中难以对图中具有鉴别性对象进行有效学习的问题,本文提出了一种基于注意力机制的弱监督细粒度图像分类算法.该算法能有效定位和识别细粒度图像中语义敏感特征.首先在经典卷积神经网络的基础上通过线性融合特征得到对象整体信息的表达,然后通过视觉注意力机制进一步提取特征中具有鉴别性的细节部分,获得更完善的细粒度特征表达.所提算法实现了线性融合和注意力机制的结合,可看作是多网络分支合作训练共同优化的网络模型,从而让网络模型对整体信息和局部信息都有更好的表达能力.在3个公开可用的细粒度识别数据集上进行了验证,实验结果表明,所提方法有效性均优于基线方法,且达到了目前先进的分类水平.  相似文献   

17.
弱监督关系抽取利用已有关系实体对从文本集中自动获取训练数据,有效解决了训练数据不足的问题。针对弱监督训练数据存在噪声、特征不足和不平衡,导致关系抽取性能不高的问题,文中提出NF-Tri-training(Tri-training with Noise Filtering)弱监督关系抽取算法。它利用欠采样解决样本不平衡问题,基于Tri-training从未标注数据中迭代学习新的样本,提高分类器的泛化能力,采用数据编辑技术识别并移除初始训练数据和每次迭代产生的错标样本。在互动百科采集数据集上实验结果表明NF-Tri-training算法能够有效提升关系分类器的性能。  相似文献   

18.
论坛帖子对话行为分类可以明确每个帖子在当前线索中的角色,有助于重构论坛线索中的对话关系,提高论坛信息检索的效果。该文提出了一种基于弱监督学习的论坛帖子对话行为分类方法,把帖子的对话行为分类作为线索的序列标注问题来解决。该方法的特点是只要指定合理的特征约束,就可以训练对话行为分类模型。方法在CNET和edX数据集上的分类精确率分别达到75.6%和60.7%,优于有监督的条件随机域方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号